我把 ncnn 移植到 RISC-V 啦！

sky · 发表于 2020-9-16 09:56:36

有人预言,RISC-V或将是继Intel和Arm之后的第三大主流处理器体系。欢迎访问全球首家只专注于RISC-V单片机行业应用的中文网站

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由 sky 于 2020-9-16 10:15 编辑

国内芯片技术交流-我把 ncnn 移植到 RISC-V 啦！risc-v单片机中文社区(1)

可以转载，但不准删改内容！

RISC-V，我喜欢缩写成 riscv，能少按一次 shift 和减号，是一个基于精简指令集（RISC）原则的开源指令集架构（ISA）。作为完全开源的指令集，天生自带开源的光环基因，纵使当今 x86 ARM 几乎绝对市场垄断，依然生机勃勃，持续发展着

https://en.wikipedia.org/wiki/RISC-V

如果要问我，为什么要把 ncnn 移植到 riscv 上面跑？那就是开源文化基因的力量，英文单词 meme 的魔法

其实移植过程中还是踩了一些坑的，感谢中科院软件所智能软件研究中心的大佬热心解答我的提问

一，编译工具链，pk，仿真器

https://github.com/riscv/riscv-gnu-toolchain

其实第一次搭建环境，照着 README 的命令就足够了，首先是编译工具链，时间比较久，make 完会自动安装到 /opt/riscv，不需要 make install

$ export PATH=/opt/riscv/bin:$PATH
$ sudo apt-get install autoconf automake autotools-dev curl python3 libmpc-dev libmpfr-dev libgmp-dev gawk build-essential bison flex texinfo gperf libtool patchutils bc zlib1g-dev libexpat-dev
$ git clone https://github.com/riscv/riscv-gnu-toolchain.git
$ cd riscv-gnu-toolchain
$ git submodule update --init
$ ./configure --prefix=/opt/riscv
$ make -j4

复制代码

https://github.com/riscv/riscv-pk

然后是 pk，proxy kernel

$ git clone https://github.com/riscv/riscv-pk.git
$ cd riscv-pk
$ mkdir build && cd build
$ ../configure --prefix=/opt/riscv --host=riscv64-unknown-elf
$ make -j4
$ make install

复制代码

https://github.com/riscv/riscv-isa-sim

最后是仿真器，又名 spike

$ sudo apt-get install device-tree-compiler
$ git clone https://github.com/riscv/riscv-isa-sim.git
$ cd riscv-isa-sim
$ mkdir build && cd build
$ ../configure --prefix=/opt/riscv
$ make -j4
$ make install

复制代码

正常情况下不会出错，/opt/riscv 在 install 的时候需要 root 权限

搭建完成就来编译个 hello。先写个 hello.c，用 riscv gcc 编译为 riscv 二进制，然后用 spike 仿真器在 Linux x86 跑 riscv 程序，成功了

#include <stdio.h>
int main()
{
fprintf(stderr, "hello\n");
return 0;
}

复制代码

$ riscv64-unknown-elf-gcc hello.c -o hello
$ spike /opt/riscv/riscv64-unknown-elf/bin/pk ./hello
bbl loader
hello

复制代码

移植 ncnn
第一件事，安排个 riscv64-unknown-elf.toolchain.cmake

https://github.com/Tencent/ncnn/blob/master/toolchains/riscv64-unknown-elf.toolchain.cmake

第二件事，编译起来，已经预料到没有 protobuf opencv，newlib 也没有 openmp，那么禁用掉

$ cmake -DCMAKE_TOOLCHAIN_FILE=../riscv64-unknown-elf.toolchain.cmake -DNCNN_OPENMP=OFF -DNCNN_BUILD_TOOLS=OFF -DNCNN_BUILD_EXAMPLES=OFF ..
$ make -j4

复制代码

platform.h 里的 Mutex ConditionVariable Thread 依赖 pthread，newlib 是没有的，新加一个 NCNN_THREADS 开关，彻底屏蔽一切和线程相关的代码
posix_memalign 和 sleep 属于 posix 函数，newlib 也是没有的，新加条件判断 defined(__unix__) || defined(__APPLE__) 绕过

就改了这两个地方，似乎并没有什么困难嘛...

$ cmake -DCMAKE_TOOLCHAIN_FILE=../riscv64-unknown-elf.toolchain.cmake -DNCNN_THREADS=OFF -DNCNN_OPENMP=OFF -DNCNN_BUILD_TOOLS=OFF -DNCNN_BUILD_EXAMPLES=OFF ..
$ make -j4

复制代码

编译通过了，但是跑 ctest 会因为 test_xxx 无法直接运行全部 Failed。riscv 的测试程序需要像 hello 一样，用 spike 仿真器跑，上网搜索一番找到这个方案，魔改一番，加上 spike 和 pk 参数

https://stackoverflow.com/questions/28812533/how-to-pass-command-line-arguments-in-ctest-at-runtime

$ TESTS_EXECUTABLE_LOADER=spike TESTS_EXECUTABLE_LOADER_ARGUMENTS=/opt/riscv/riscv64-unknown-elf/bin/pk ctest

复制代码

单元测试通过了，感觉速度比 qemu 这类的快

开启 RISC-V V 扩展(SIMD)

前面编译的三大件，默认架构 rv64imafdc，也就是 rv64gc，也就是 k210 上面用的架构，是没有 SIMD 指令的。 ncnn 的优化代码中使用大量的 SIMD 指令实现 cpu 加速，打开 riscv SIMD 扩展指令相当必要。

riscv 的 V 扩展就是 riscv 的 SIMD 标准，目前最新版本是 0.9，下一个版本 1.0 很可能就是正式版。1.0 和 0.9 看起来是完全兼容的，没有重大改动，并且 riscv-gnu-toolchain git 只有 rvv-0.9 分支，spike 也声明支持 0.9 版本 V 扩展，那么就用 0.9

$ cd riscv-gnu-toolchain
# rvv-0.9.x = 5842fde8ee5bb3371643b60ed34906eff7a5fa31
$ git checkout 5842fde8ee5bb3371643b60ed34906eff7a5fa31
$ git submodule update --init

复制代码

riscv-gnu-toolchain 和 riscv-pk 编译时 ./configure 添加 --with-arch=rv64gcv 参数启用 V 扩展
riscv-isa-sim 编译时 ./configure 添加 --with-isa=rv64gcv 参数设置默认启用 V 扩展

编译 ncnn 链接时出错，报错 undefined reference to 'math_oflowf'，经过寻找发现，这个math_oflowf 函数实现在 newlib 中，并且被 __OBSOLETE_MATH 条件屏蔽了，代码里用到 exp() 会报这个错。一行 sed 把这个条件删掉，重新编译一遍，通过

# rvv-0.9.x fix undefined reference to '__math_oflowf'
sed -i '/__OBSOLETE_MATH/d' riscv-newlib/newlib/libm/common/math_errf.c

复制代码

简单优化一个 riscv op
有了支持 V 扩展的 gcc 和 spike，当然要试试看效果，就简单优化个 riscv clip

SIMD 指令优化有三种方式，intrinsic/inline assembly/assembly，嫌弃 assembly 麻烦，ncnn 一直是用前两种实现方式。正常的话，clip这种形式简单不怎么耗寄存器的 op，适合用 intrinsic，简单方便效果好。可是找了一圈工具链文件夹没找到 intrinsic 头文件，原来 riscv-gnu-toolchain 并没有实现 V 扩展 intrinsic，我看 isrc-cas/rvv-llvm 正在开发相关的 intrinsic，不清楚是怎样的状态，暂时退而求其次 inline assembly 实现一下
https://github.com/isrc-cas/rvv-llvm

asm volatile("vle8.v v0, (a1)");

复制代码

直接这么写一行 riscv v 指令，能通过编译，运行会报错 Illegal Instruction，我以为是工具链或 spike 编译的问题，倒腾了好久，幸亏大佬解答了一番

https://github.com/isrc-cas/plct-spike/issues/3

如果是 x86 sse/avx 或 arm neon 优化，循环通常会写成这个样子，一次取8个数或4个数，最后剩余的用一个 naive 循环处理

int i = 0;
#if __AVX___
for (; i + 7 < N; i += 8)
{
}
#endif // __AVX___
#if __SSE___
for (; i + 3 < N; i += 4)
{
}
#endif // __SSE___
for (; i < N; i++)
{
}

复制代码

https://github.com/riscv/riscv-v-spec/releases/tag/0.9

riscv v 是全新的变长 SIMD 设计，据说是沿袭 arm sve，最大能支持 8192bit。这样的好处就是代码可以只写一个循环，里面到底是展开8个数还是4个数，是自动的！再看看 riscv v 的其他指令，好些运算指令支持 mask 寄存器，这设计也是相当 modern 的，大概是从 avx512 学来的，可以用这个 mask 实现很多原先要多条指令才能实现的骚操作，真的很 flexible

这段代码里的 vsetvli 控制循环步进，t0 就是 cpu 告诉我他想一次性处理 fp32 的个数。remain 是我告诉 cpu 还有多少个数需要处理，你不准搞多了。m8 是我建议 cpu 一次性处理8个数，cpu 可以不听，返回4也是可以的

asm volatile(
"L0: \n"
"vsetvli t0, %1, e32, m8 \n"// t0 = vsetvli(remain, 32bit x 8)
"vle32.v v0, (%0) \n"// load ptr to v0
"vfmax.vf v0, v0, %4 \n"
"vfmin.vf v0, v0, %5 \n"
"vse32.v v0, (%0) \n"// store v0 to ptr
"slli t1, t0, 2 \n"
"add %0, %0, t1 \n"// ptr += t0 * sizeof(float)
"sub %1, %1, t0 \n"// remain -= t0
"bnez %1, L0 \n"
: "=r"(ptr), // %0
"=r"(remain) // %1
: "0"(ptr),
"1"(remain),
"f"(min), // %4
"f"(max) // %5
: "cc", "memory", "t0", "t1"
);

复制代码

https://github.com/Tencent/ncnn/blob/master/src/layer/riscv/clip_riscv.cpp

也许 V 扩展太 flexible，标准也没有正式定稿，目前还没有看到完整实现 V 扩展的内核，这些优化代码只能在 spike/qemu 上面运行

期待将来有真实的硬件产品实现，latyas 说 k510 没有 V ... qwq

https://github.com/riscv/riscv-cores-list

增加 RISC-V 32位编译

去年参加 riscv 的开源活动，NXP 送了我一块 vega-lite 开发板，CPU 是 rv32imc，NXP 真是太棒了 QvQ

国内芯片技术交流-我把 ncnn 移植到 RISC-V 啦！risc-v单片机中文社区(2)

趁热打铁，也编译一套 riscv 32位 ncnn，方法和前面 V 扩展基本一致，区别就是 rv64gcv 换成 rv32imc。rv32imc 缺少 A 扩展，ncnn 代码里用到 __atomic_fetch_add 导致链接报错，添加一份无 atomic 实现就行

最后，整理出 rv64gv rv64gcv rv32imc 三种架构，放到 github action ci，自动编译测试。rv32imc 缺少 F 扩展，没有浮点计算能力，跑起来慢得出乎想象，隔壁 rv64gc 几分钟跑完全部测试，这边 rv32imc 跑一个 test_convolution 就跑了一个多小时，算了，ci 有编译就行了，测试就放弃治疗了

RISC-V单片机技术交流群

我把 ncnn 移植到 RISC-V 啦！

有人预言,RISC-V或将是继Intel和Arm之后的第三大主流处理器体系。欢迎访问全球首家只专注于RISC-V单片机行业应用的中文网站

相关帖子

RISC-V单片机中文网 /2

RISC-V单片机技术交流群

我把 ncnn 移植到 RISC-V 啦！

有人预言,RISC-V或将是继Intel和Arm之后的第三大主流处理器体系。欢迎访问全球首家只专注于RISC-V单片机行业应用的中文网站

相关帖子

RISC-V单片机中文网 /2 document.write(unescape("%3Cspan id='cnzz_stat_icon_1278870330'%3E%3C/span%3E%3Cscript src='https://s4.cnzz.com/z_stat.php%3Fid%3D1278870330%26show%3Dpic1' type='text/javascript'%3E%3C/script%3E"));

RISC-V单片机中文网 /2