Jiandong Qiu

RISC-V Vector优化Radix-2 FFT

2025-10-27T17:29:30+00:00

利用RVV优化FFT计算, 采用Radix-2方案.

FFT基础

离散傅里叶变换：

\[X[k] = \sum\limits_{n = 0}^{N - 1} {x[n]{e^{ - j{2\pi nk} \over N}} = \sum\limits_{n = 0}^{N - 1} {x[n]W_N^{nk}} }\]

快速傅里叶变换(FFT)常见的可以分为DIT/DIF，即按时域分解或者按频域分解。以按频域分解为例：

写出偶数频率项和奇数频率项：

\[X[2r] = \sum\limits_{n = 0}^{N - 1} {x[n]W_N^{2nr}} = \sum\limits_{n = 0}^{\frac{N}{2} - 1} {x[n]W_N^{2rn}} + \sum\limits_{n = 0}^{\frac{N}{2} - 1} {x[n + \frac{N}{2}]W_N^{2r[n + \frac{N}{2}]}} = \sum\limits_{n = 0}^{\frac{N}{2} - 1} {(x[n] + x[n + \frac{N}{2}])W_{\frac{N}{2}}^{rn}}\] \[X[2r + 1] = \sum\limits_{n = 0}^{\frac{N}{2} - 1} {(x[n] - x[n + \frac{N}{2}])W_N^nW_{\frac{N}{2}}^{rn}}\]

从这两个表达式来看，长度为N的DFT可以分解成两个长度为N/2的DFT.

而且从分解的形式看，每次都是将偶数部分和奇数部分拆分开, 结果自然就不会是连续的, 而是形成位倒序的排列, 由此也可以理解位倒序正是和radix-2息息相关，如果是radix-3或者radix-4, 输出的顺序就不完全是位倒序了。

向量化处理

可以看到DIF FFT的计算中每个stage的FFT长度是逐级减小的, 这不太利于发挥SIMD指令的性能, 因此略微调整数据的摆放位置, 可以使得中间的计算结果都能连续存放。

原先的DIF FFT的计算过程有一个好处是可以原位计算, 但是经过如下的调整后, 就不能原位计算了, 但是可以实现中间每层的计算都以N/2的向量长度处理。

实数FFT

先说结论，N点的实数FFT只两个N/4长度的序列就可以算出N/2点结果，而且因为完整的结果是共轭对称的, 所以一般剩下N/2点就不用写了。

正变换

实数序列x[n], n=0, 1, 2, …, N-1，可以根据索引值的奇偶性进行分组。

偶数索引值的数组成一个新的实数序列f[u]，u=0, 1, 2, …, N/2-1

\[f[u] = x[2u]\]

x[n]中奇数索引值的数组成新的实数序列g[u]，长度为N/2。

\[g[u] = x[2u+1]\]

把x[n]看作一个复数序列y[u]，偶数索引值的数作为实部，奇数索引值的数作为虚部。

\[y[u] = f[u] + jg[u]\]

两边都做离散傅里叶变换，根据线性性质可以得到：

\[Y[r] = F[r] + jG[r]\]

实数的离散傅里叶变换具有共轭对称性。

\[X[r] = \overline {X[N - r]}\]

只需要把公式代入下面的分析式中就可以轻松验证

\[X[r] = \sum\limits_{n = 0}^{N - 1} {x[n]{e^{ -j2\pi \frac{rn}{N}}}}\]

$F[r]$是$f[u]$的离散傅里叶变换结果，$G[r]$是$g[u]$的离散傅里叶变换结果, $Y[r]$是$y[u]$的离散傅里叶变换结果。因为$f[u]$, $g[u]$是实数，所以：

\[\overline {F[N/2 - r]} = F[r]\] \[\overline {G[N/2 - r]} = G[r]\]

根据这一信息，可以把$r=N/2-r$代入$Y[r]$中：

\[\overline {Y[N/2 - r]} = \overline {F[N/2 - r]} + \overline {jG[N/2 - r]} = F[r] - jG[r]\]

再联立两个方程，可以用$Y[r]$和$\overline {Y[N/2 - r]} $来表示$F[r]$和$G[r]$

\[F[r] = {1 \over 2}\left( {Y[r] + \overline {Y[N/2 - r]} } \right)\] \[G[r] = {j \over 2}\left( {\overline {Y[N/2 - r]} - Y[r]} \right)\]

到这里，把x[n]（N点实数）看作一个复数序列y[u]（N/2点复数）后, 可以计算y[u]的离散傅里叶变换，并且可以推算出x[n]中偶数索引的数组成的序列的离散傅里叶变换结果$F[r]$和奇数索引的数组成的序列的离散傅里叶变换结果$G[r]$。

再考虑到用DIT分解计算x[n]的离散傅里叶变换时，第一步就是把x[n]分成两个奇偶子序列，

\[X[r] = \sum\limits_{n = 0}^{N/2 - 1} {x[2n]{e^{ - j2\pi {r2n} \over N}}} + \sum\limits_{n = 0}^{N/2 - 1} {x[2n + 1]{e^{ - j2\pi {r(2n + 1)} \over N}}}\] \[X[r] = F[r] + \omega _N^rG[r],\omega _N^r = {e^{ - j2\pi {r \over {N/2}}}}\]

这样就可以计算出x[r]的前N/2点的复数结果.

但是当$r=N/2$时，代进去会发现$X[N/2] = \overline {X[N/2]} $，只能知道X[N/2]处也是一个实数，这个奈奎斯特频点的值需要进一步推导：

N/2点的离散傅里叶变换具有周期性，即$F[r]=F[r+N/2]$, $G[r]=G[r+N/2]$

\[X[r + N/2] = F[r + N/2] + \omega _N^{r + N/2}G[r + N/2] = F[r] - \omega _N^rG[r]\]

所以：

\[X[N/2] = F[0] - G[0]\]

再结合$X[r]$的共轭对称性，可以得到

\[X[r + N/2] = \overline {X[N/2 - r]} = F[N/2 - r] - \omega _N^rG[N/2 -r] = F[r] - \omega _N^rG[r]\]

总结一下计算步骤, 先把实数序列当做复数序列算cfft $Y[r]$, 然后根据$Y[r]$ 计算出$F[r]$和$G[r]$, 再利用N/4长度的$F[r]$和$G[r]$计算$X[r]$, 其中$X[0]$和$X[N/2]$另外单独算.

\[Y[r] = F[r] + jG[r]\] \[F[r] = {1 \over 2}\left( {Y[r] + \overline {Y[N/2 - r]} } \right)\] \[G[r] = {j \over 2}\left( {\overline {Y[N/2 - r]} - Y[r]} \right)\] \[X[r] = F[r] + \omega _N^rG[r]\] \[X[N/2 - r] = \overline {F[r] - \omega _N^rG[r]}\]

逆变换

如果同样想用复数IFFT来计算实数IFFT（经过IFFT计算后结果为实数），这是一个相反的过程。

\[Y[r] = F[r] + jG[r]\]

目前已知$X[r]$，只需要用$X[r]$表示出$F[r]$和$G[r]$，就可以用IFFT计算出$Y[r]$了。

\[X[r] = F[r] + \omega _N^rG[r]\] \[X[r + N/2] = F[r] - \omega _N^rG[r]\]

联立上面两个式子可以得到：

\[F[r] = {1 \over 2}\left( {X[r] + X[r + N/2]} \right)\] \[G[r] = \frac{\omega _N^{ - r}}{2}\left( {X[r] - X[r + N/2]} \right)\]

$X[r]$具有共轭对称性，所以:

\[X[r] = \overline {X[N - r]}\]

计算IFFT分为两步，首先需要将长度为（N/2 + 1）的复数序列转换为长度为N/2的复数序列。

\[F[r] = {1 \over 2}\left( {X[r] + \overline {X[N/2 - r]} } \right)\] \[G[r] = \frac{\omega _N^{ - r}}{2}\left( {X[r] - \overline {X[N/2 - r]} } \right)\]

观察对称性：

\[F[N/2 - r] = {1 \over 2}\left( {X[N/2 - r] + \overline {X[r]} } \right)\] \[G[N/2 - r] = \frac{\omega _N^{ - r}}{2}\left( {X[N/2 - r] - \overline {X[r]} } \right)\]

所以在计算那种知道结果是实数的IFFT的时候，是可以类似计算FFT的时候一样, 同时计算$F[r]$和$F[N/2 - r]$的, 因为他们所用到的输入数据是一样的。

最后，如果FFT和IFFT都不归一化，一个序列调用FFT，再调用IFFT后会增大N倍，一般都会除以归一化因子N，有的放在FFT的计算上面，有的放在IFFT的计算上面，也有的拆分成两个$1/\sqrt{N}$，分别放在FFT和IFFT上。

一般情况下，信号经过FFT-IFFT loop会增大N倍，而如果用N/2点计算的话，就会增大N/2倍。所以如果想要让两种计算方式的结果一致，需要在第二种方式时把结果乘以2。

参考资料

FFT wiki

openEuler RISC-V QEMU网络配置

2025-10-25T22:14:44+00:00

记录openEuler RISC-V QEMU虚拟机连接宿主机网络的方法.

openEuler的虚拟机镜像使用官网提供的即可, openEuler RISC-V虚拟机安装文档

关于如何连接外网, 网上已经有很多文章介绍了, 比如这些参考链接:

但这些文章看上去配置起来也都挺麻烦的, 所以我在这里记录一下我的配置方式.

NAT模式

Network Address Translation, 官方提供的start_vm.sh中默认启用的是user mode network backend, 这个模式默认不能用ping来测试网络的连通性. 需要在宿主机上做一些额外的设置才行. 但用curl来测试网络的连通性是可以的.

这个NAT模式的额外开销比较多, 所以网络的性能也相对较差一些.

通过qemu-system-riscv的help帮助信息可以看到有如下的配置选项

-netdev user,id=str[,ipv4=on|off][,net=addr[/mask]][,host=addr]
         [,ipv6=on|off][,ipv6-net=addr[/int]][,ipv6-host=addr]
         [,restrict=on|off][,hostname=host][,dhcpstart=addr]
         [,dns=addr][,ipv6-dns=addr][,dnssearch=domain][,domainname=domain]
         [,tftp=dir][,tftp-server-name=name][,bootfile=f][,hostfwd=rule][,guestfwd=rule][,smb=dir[,smbserver=addr]]
                configure a user mode network backend with ID 'str',
                its DHCP server and optional services

桥接模式

桥接模式顾名思义就是用宿主机上的网桥来转发虚拟机上的网络数据包, 但这个需要在宿主机上创建网桥, 然后设置iptables的转发. 感觉是有点麻烦的, 不过好在qemu提供来一个qemu-bridge-helper来帮助我们做这个工作.

关于网桥, 我发现我之前安装过libvirt-daemon, 所以有一个virbr0网桥已经有了,

ip addr show virbr0 && brctl show virbr0

4: virbr0:  mtu 1500 qdisc noqueue state DOWN group default qlen 1000
    link/ether 52:54:00:18:ec:ef brd ff:ff:ff:ff:ff:ff
    inet 192.168.122.1/24 brd 192.168.122.255 scope global virbr0
       valid_lft forever preferred_lft forever
bridge name     bridge id               STP enabled     interfaces
virbr0          8000.52540018ecef       yes

可能是因为我之前装过gnome-boxes吧, 所以创建网桥的步骤我这里可以省略, 只要安装过libvirt-daemon并启动来libvirtd服务应该就有这个网桥. 在启动qemu的时候, 直接指定-netdev bridge, br=virbr0, QEMU就会启用qemu-bridge-helper来帮助我们做转发工作.

-netdev bridge,id=str[,br=bridge][,helper=helper]
                configure a host TAP network backend with ID 'str' that is
                connected to a bridge (default=br0)
                using the program 'helper (default=/usr/local/bin/qemu-riscv64/libexec/qemu-bridge-helper)

根据QEMU安装位置的不同, 还需要提供一个bridge.conf文件

cat /usr/local/bin/qemu-riscv64/etc/qemu/bridge.conf
allow virbr0

然后用的是时候还需要加上管理员权限

sudo qemu-system-riscv ...

用这种bridge模式的话, 网络性能相对更好, 而且也可以用ping来测试网络的连通性了.

更新软件包

更新软件包的时候可能会遇到这样的问题:

SSL peer certificate or SSH remote key was not OK ...

在更新软件包之前需要先同步一下时间. 一开始可以先手动设置一下时间:

sudo date -s "2025-10-25 20:30:00"

然后在可以连网更新软件包之后再同步一下时间:

sudo ntpdate ntp.aliyun.com
sudo timedatectl set-timezone Asia/Shanghai

也可以按照这里的文档来设置时间, 基础设置具体如何更新软件包可以参考文档

K230设置自动连接wifi

2025-10-19T20:43:42+00:00

按照K230 linux WiFi使用指南设置K230开发板的wifi密码. 感觉流程可以精简一些, 实现开机自动连接Wifi.

第一步, 启用无线网卡. ifconfig 或者 ip 命令都可以用, ifconfig 是相对较老的命令

# ifconfig wlan0 up
ip link set wlan0 up

第二步, 启动wpa_supplicant:

wpa_supplicant -B -i wlan0 -c /etc/wpa_supplicant.conf

-B的作用是后台运行, -i指定无线网卡, -c指定配置文件. 和wifi相关的配置都可以在配置文件中写好.

所以在第二步前, 需要先准备一下配置文件. 嘉楠提供了默认的配置文件:

ctrl_interface=/var/run/wpa_supplicant
ap_scan=1

network={
  key_mgmt=NONE
}

这里没有设置wifi的名称和密码, 只能用来连开放的无线网络. 如果要设置wifi的名称和密码的话, 可以先:

wpa_passphrase wifi_test 12345678
network={
        ssid="wifi_test"
        #psk="12345678"
        psk=5c86769b524f416c47ece4465c526cf24e20ce3e565618f4a081130ae22402cc
}

用wpa_passphrase生成加密的密码, 这样可以避免wifi密码泄漏.

接着写配置文件的时候可以写多个wifi名称和密码, 并且可以指定优先级, 以应多多种场景:

ctrl_interface=/var/run/wpa_supplicant
ap_scan=1

network={
    ssid="HomeWiFi"
    psk="home1234"
    priority=10
}

network={
    ssid="OfficeWiFi"
    psk="work5678"
    priority=5
}

network={
    ssid="MyPhone"
    psk="87654321"
    priority=1
}

有了wpa_supplicant的配置之后, 还需要启动udhcpc来获取ip地址:

udhcpc -i wlan0 -q

最后, 这整个流程也都可以写在一个脚本里, 比如/etc/init.d/wifi_connect.sh, 然后在系统启动的过程中调用这个脚本, 以实现开机自动启动:

#!/bin/sh
WLAN_IFACE="wlan0"
CONF_FILE="/etc/wpa_supplicant.conf"
ip link set $WLAN_IFACE up
wpa_supplicant -B -i $WLAN_IFACE -c $CONF_FILE
sleep 3
udhcpc -i $WLAN_IFACE -q

然后在/etc/init.d/rcS 中的最后调用这个脚本:

/etc/init.d/wifi_connect.sh &

这样系统启动的时候就会自动连wifi啦.

常量字符串末尾的换行符可以被优化

2025-10-16T22:35:28+00:00

C代码中带换行符的常量字符串, 编译器会将末尾的换行符优化掉, 节省一个换行符的空间.

今天遇到一个问题, 在gcc编译的时候, 常量字符串末尾的换行符\n没有出现在反汇编代码中.

代码非常简单:

#include 
int main() {
  printf("hello\n");
  return 0;
}

objdump -s -j .rodata main

main:     file format elf64-x86-64

Contents of section .rodata:
 2000 01000200 68656c6c 6f00               ....hello.

从二进制的数据来看, 68, 65, 6c, 6c, 6f对应的就是hello, 但是随后就是00表示字符串结尾了, \n对应的ASCII码是0a却没有出现.

后来通过反汇编的代码发现原因很简单, 就是puts函数能够自带换行符地打印输出, 在打印带换行符的常量字符串的时候, 直接用puts函数替换了printf, 从而节省了一个字符.

0000000000001149 :
    1149:	f3 0f 1e fa          	endbr64
    114d:	55                   	push   %rbp
    114e:	48 89 e5             	mov    %rsp,%rbp
    1151:	48 8d 05 ac 0e 00 00 	lea    0xeac(%rip),%rax        # 2004 <_IO_stdin_used+0x4>
    1158:	48 89 c7             	mov    %rax,%rdi
    115b:	e8 f0 fe ff ff       	call   1050 
    1160:	b8 00 00 00 00       	mov    $0x0,%eax
    1165:	5d                   	pop    %rbp
    1166:	c3                   	ret

在这里不同编译器的行为可能都不一样, 可以在这里换不同的编译器看结果.

rvv-bench测试框架

2025-10-15T11:16:56+00:00

rvv-bench的测试框架设计得非常好, 一方面不依赖系统C库, 另一方面测试也比较严谨全面, 另外测试结果很容易在网页中显示.

上游仓库：

camel-cdr/rvv-bench 测试代码
camel-cdr/rvv-bench-results 测试结果

我fork之后的仓库

qiujiandong/rvv-bench 测试代码
qiujiandong/rvv-bench-results 测试结果

编译

编译之前我调整了一下配置，可以参考这个commit: qiujiandong/rvv-bench commit:3163e32 主要是

减小了测试数据量的大小，适合在嵌入式平台测试
添加了zvfh的编译选项,
增加了USER_PERF_EVENT的宏定义。

然后利用rvv-bench/bench目录中的Makefile就可以完成编译。

编译完成后得到的是多个二进制文件，可以在Linux上独立测试：

ascii_to_utf16
ascii_to_utf32
base64_encode
byteswap
chacha20
hist
LUT4
LUT6
mandelbrot
memcpy
memset
mergelines
poly1305
strlen
trans8x8e16
trans8x8e8
utf8_count

所有测试程序的输出都是javascript中的一个Object, 将所有测试结果保存到一个data.js文件中，写成一个data数组，便于后续显示. 类似如下的格式：

// data.js
let data = [
  {
    title: "ascii to utf16",
    labels: [
      "0",
      "scalar",
      "scalar_autovec",
      "rvv_ext_m1",
      "rvv_ext_m2",
      "rvv_ext_m4",
      "rvv_vsseg_m1",
      "rvv_vsseg_m2",
      "rvv_vsseg_m4",
      "rvv_vss_m1",
      "rvv_vss_m2",
      "rvv_vss_m4",
    ],
    ...
  },
...
];

显示结果

对于结果数据的显示, 我做了一些优化。比如这里有一个vl128dl128的文件夹, 如果需要更新测试结果，只需要复制整个文件夹，然后更新data.js文件即可。

C代码解析

裸机版本

从编译选项中带-nostdlib可以看出来，虽然是在linux上跑，但是这个测试代码是不依赖标准库的. 和标准库相关的内容都在nolibc.h中实现了，所以如果是需要移植到裸机上跑的话也很方便, 只需要对nolibc.h中的内容做裸机的适配即可。

自定义测试函数

如果需要测试跟memory大小相关的一些性能，也可以通过这个框架来测试. 比如memcpy, 有不同的实现版本，修改memcpy.c中的IMPLS宏可以控制需要测试的实现版本。

#define IMPLS(f) \
    IFHOSTED(f(libc)) \
    f(musl) \
    f(scalar) \
    f(scalar_autovec) \
    MX(f, rvv) \
    MX(f, rvv_align_dest) \
    MX(f, rvv_align_src) \
    MX(f, rvv_align_dest_hybrid) \
    MX(f, rvv_vlmax) \
    MX(f, rvv_tail) \
    MX(f, rvv_128) \

测cycle的方式

在Linux上用户一般不能直接读cycle寄存器，但如果Linux配了CONFIG_PERF_EVENTS=y, 那么就可以通过/proc/sys/kernel/perf_user_access来控制访问cycle寄存器的权限。

从Linux Kernel的文档可以了解到：

perf_user_access (arm64 and riscv only)
Controls user space access for reading perf event counters.

for arm64 The default value is 0 (access disabled).

When set to 1, user space can read performance monitor counter registers directly.

See Perf for more information.

for riscv When set to 0, user space access is disabled.

The default value is 1, user space can read performance monitor counter registers
through perf, any direct access without perf intervention will trigger an illegal
instruction.

When set to 2, which enables legacy mode (user space has direct access to cycle and
insret CSRs only). Note that this legacy value is deprecated and will be removed
once all user space applications are fixed.

Note that the time CSR is always directly accessible to all modes.

代码里有两个宏，USE_PERF_EVENT 和 USE_PERF_EVENT_SLOW. 其中USE_PERF_EVENT就是直接用rdcycle指令读cycle, USE_PERF_EVENT_SLOW就是需要通过perf_event_open以文件操作的形式获取cycle. 文件操作肯定相对于直接读寄存器更慢一些。

这两种方式不管是哪一种都需要先通过系统调用perf_event_open先获取文件描述符, 才能测cycle。所以代码中有一部分绕过glibc库，直接通过ecall进行系统调用的做法。

__attribute__((naked))
static int
nolibc_perf_event_open(void *ptr)
{
    __asm__ (
        "li a1, 0\n"
        "li a2, -1\n"
        "li a3, -1\n"
        "li a4, 0\n"
        "li a7, 241\n"
        "ecall\n"
        "ret\n"
    );
}

在Linux内核源码中有：

// include/uapi/asm-generic/unistd.h
#define __NR_perf_event_open 241

所以需要给a7传入的值是241，也就是perf_event_open的系统调用号。

用wurblpt仿真ToF传感器

2025-10-12T23:21:36+00:00

介绍如何一步步从零开始基于WurblPT仿真ToF传感器.

最开始是从这篇论文Simulation of Time-of-Flight Sensors for Evaluation of Chip Layout Variants 入手的, WurblPT有一个example用来仿真这个论文里的例子.

仓库依赖tgd, 可以先把这个仓库tgd clone一下, 先编译这个

cd tgd
cmake -B build 
cmake -B build -DCMAKE_INSTALL_PREFIX=$HOME/.local -DCMAKE_EXPORT_COMPILE_COMMANDS=ON -DCMAKE_BUILD_TYPE=Release .
cd build
sudo checkinstall

值得注意的有两个地方:

一定要编译Release模式, Release模式跑起来真的快很多.
这种用源码编译的库我一般都放在自己的.local目录, 那样不容易污染系统环境.
用checkinstall安装可以方便后续卸载, 但就是需要用到管理员权限, 卸载的时候也是通过dpkg卸载. 在安装的时候要记得看清楚安装的库的名字.

安装完tgd之后就可以安装libwurblpt了, 安装的命令也是一样的.

cd wurblpt/libwurblpt
cmake -B build -DCMAKE_INSTALL_PREFIX=$HOME/.local -DCMAKE_EXPORT_COMPILE_COMMANDS=ON -DCMAKE_BUILD_TYPE=Release .
cd build
sudo checkinstall

最后再编译wurblpt-tof-example, 然后就可以跑ToF的仿真了.

cd wurblpt/wurblpt-tof-example
cmake -B build -DCMAKE_INSTALL_PREFIX=$HOME/.local -DCMAKE_EXPORT_COMPILE_COMMANDS=ON -DCMAKE_BUILD_TYPE=Release .
cd build
make
./wurblpt-tof-example

仿真生成的都是.tgd后缀的数据, 可以用qv查看, 这个我也是从仓库的issue看到的, wurblpt#1 我是通过flatpak安装的qv, 可以把要看的一个系列图片放在一个文件夹里, 然后用qv查看整个文件夹, 然后可以用方向键的左右来看每帧的结果.

flatpak run de.marlam.qv result

如何将距离像转换为三维点云视图? 这里只说了可以用距离像生成, 但是没有说具体怎么做. 而且tgd格式在python里的支持不是很好, 没法直接读取. tgd格式可以转tiff格式:
比如像这样可以把resutl.tgd中通道0的数据转换称tiff格式.

tgd convert -c 0 result.tgd result.tiff

然后tiff格式的数据在python中就可以比较方便处理了. 利用open3d可以生成3D点云.

import tifffile as tiff
import open3d as o3d
import numpy as np
import matplotlib.pyplot as plt

Z = tiff.imread("out.tiff")
Z = 300 - Z * 100
x, y = np.meshgrid(np.arange(Z.shape[1]), np.arange(Z.shape[0])[::-1])

points = np.stack((x, y, Z), axis=-1).reshape(-1, 3)

norm = (Z - Z.min()) / (Z.max() + 50 - Z.min())
colors = plt.cm.jet(norm).reshape(-1, 4)[:, :3]

pcd = o3d.geometry.PointCloud()
pcd.points = o3d.utility.Vector3dVector(points)
pcd.colors = o3d.utility.Vector3dVector(colors)

min_bound = points.min(axis=0)
max_bound = points.max(axis=0)

bbox_points = np.array([
    [min_bound[0], min_bound[1], min_bound[2]],
    [max_bound[0], min_bound[1], min_bound[2]],
    [max_bound[0], max_bound[1], min_bound[2]],
    [min_bound[0], max_bound[1], min_bound[2]],
    [min_bound[0], min_bound[1], max_bound[2]],
    [max_bound[0], min_bound[1], max_bound[2]],
    [max_bound[0], max_bound[1], max_bound[2]],
    [min_bound[0], max_bound[1], max_bound[2]],
])

lines = [
    [0,1],[1,2],[2,3],[3,0],
    [4,5],[5,6],[6,7],[7,4],
    [0,4],[1,5],[2,6],[3,7] 
]

colors_lines = [[0,0,0] for _ in lines]

line_set = o3d.geometry.LineSet()
line_set.points = o3d.utility.Vector3dVector(bbox_points)
line_set.lines = o3d.utility.Vector2iVector(lines)
line_set.colors = o3d.utility.Vector3dVector(colors_lines)

render_option = o3d.visualization.RenderOption()
render_option.background_color = np.array([1.0, 1.0, 1.0])

o3d.visualization.draw_geometries([pcd, line_set])

RISC-V中利用rdtime估计cycle数

2025-10-10T00:17:24+00:00

在RISC-V Linux中, rdtime或者rdcycle可以用来获取和时间相关的统计量, 但是时钟源一般不同.

rdtime采用的是较低精度的时钟源, 但是这个时钟是以恒定频率工作的，所以可以用来稳定计时。
rdcycle相对地，CPU的cycle所对应的时钟可能是动态变化的，但它也是用来精确衡量算力消耗的单位。

假定CPU以恒定频率工作，那么rdtime和rdcycle就是呈固定的线性关系，因此可以由rdtime的结果来推算cycle数。

测试代码

// main.c
#include 

extern unsigned long test();

int main() { printf("cycle: %lu\n", test()); }

# test.S
.global test

test:
    li      t0, 10000
    rdtime  t1
1:
    ld      a0, 0(sp)
    ld      a1, 8(sp)
    ld      a2, 16(sp)
    ld      a3, 24(sp)
    ld      a4, 32(sp)
    ld      a5, 40(sp)
    ld      a6, 48(sp)
    ld      a7, 56(sp)
    ld      s0, 64(sp)
    ld      s1, 72(sp)
    ld      s2, 80(sp)
    ld      s3, 88(sp)
    ld      s4, 96(sp)
    ld      s5, 104(sp)
    ld      s6, 112(sp)
    ld      s7, 120(sp)
    addi    t0, t0, -1
    bnez    t0, 1b
    rdtime  t0
    sub     a0, t0, t1
    ret

编译

riscv64-unknown-linux-gnu-gcc -march=rv64imafdc -mabi=lp64d -static -o main main.c test.S

测试

./main
cycle: 2706

经过rdtime统计得到的结果是2706个计数值，那么rdtime的参考频率是多少？
可以通过timebase-frequency的值来确定。

结果分析

> xxd /proc/device-tree/cpus/timebase-frequency
00000000: 019b fcc0                                ....

timebase-frequency是以大端形式存放的，实际的值应该是 27000000

如果CPU是固定以1.6GHz工作的，那么就可以计算出实际的cycle数：

>>> 2706/27000000*1600000000
160355.55555555556

从测试的结果可以看出，代码中大约执行160000次ld指令，推算得出大约耗时160355 cycle，结果也是比较合理的。

Neovim自定义代码片段

2025-10-09T23:43:28+00:00

用LuaSnip可以实现自定义代码片段, 从而避免一些重复的typing.

起因是这样的, 很多开源的代码中, 文件头部都有统一的关于License的注释, 比如:

SPDX-License-Identifier: ...

还有一些Doxygen的文件头注释:

/*! 
 * @file
 * @author Firstname Lastname
 * @version 1.0
 * @copyright Copyright (c) 2025
 */

这些代码片段都可以通过预先定义snippets来快速插入. 可以参考这个commit的设置: qiujiandong/kickstart.nvim:99bf05b

return {
  -- C file header snippet
  s(
    'header_apache',
    fmt(
      [[
/**
 * @file {project}.c
 * @brief {description}
 * @author Jiandong Qiu
 * @date {}
 *
 * Copyright (c) {} Jiandong Qiu
 * SPDX-License-Identifier: Apache-2.0
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

]],
      {
        project = i(1, 'ProjectName'),
        description = i(2, 'Short description'),
        f(function()
          return os.date '%Y-%m-%d'
        end),
        os.date '%Y',
      }
    )
  ),
}

效果就是只需要输入header_apache, 就会自动插入上述的代码片段.

如果之后遇到开发中经常写的代码片段, 也都可以用类似的方式写一段snippets, 从而提高效率.

GCC Undefined Behavior (UB)和有符号数溢出

2025-10-06T23:41:38+00:00

GCC中有一些Undefined Behavior(UB), 在开启-O2/O3优化后, 可能导致意想不到的结果.

实例

实际举个例子, 如下面的代码:

// main.c
#include 
#include 
#include 

int main() {
  for (int i = 0; i < 10; ++i) {
    int32_t a = rand() % 0x10000;
    int16_t b = (int16_t)((a * a) >> 16);
    if (b > 0) {
      printf("b > 0, b = %d\n", b);
    } else {
      printf("b < 0, b = %d\n", b);
    }
  }
}

采用不同的优化等级编译并运行:

❯ gcc -O0 -o main main.c && ./main
b > 0, b = 4816
b > 0, b = 1279
b > 0, b = 23228
b > 0, b = 5248
b < 0, b = -16997
b > 0, b = 8648
b > 0, b = 21989
b > 0, b = 7907
b > 0, b = 970
b > 0, b = 15575

❯ gcc -O2 -o main main.c && ./main
b > 0, b = 4816
b > 0, b = 1279
b > 0, b = 23228
b > 0, b = 5248
b > 0, b = -16997
b > 0, b = 8648
b > 0, b = 21989
b > 0, b = 7907
b > 0, b = 970
b > 0, b = 15575

不难发现, O2优化的结果中, 有时候b打印出来明明是负数, 但判断的时候却是始终认为其是大于0的, 这就让人感觉非常匪夷所思了.

原因分析

a是一个[0, 65535)的随机数, a * a在int32_t类型的表示范围内有可能会溢出, 即超出int32_t的表示范围.
而且编译器在开启-O2/O3优化的时候, 会假设不会有有符号数溢出, 因此a * a必定大于0. 在这样一个前提下, 下面关于b的判断就会始终认为b是大于0的. 但实际上在有符号数溢出的情况下, b的值是有可能小于0的, 这样一来就导致了上面实际测试中遇到的问题.

解决办法

GCC有很多Undefined Behavior(UB), 而且有Undefined Behavior Sanitizer (UBSan) 可以在运行时发现这些隐患. 在编译的时候加上 -fsanitize=undefined 选项, 可以参考GCC文档 -fsanitize=undefined, 这样一来运行时就会有如下的错误提示:

❯ gcc -O2 -fsanitize=undefined -o main main.c && ./main
b > 0, b = 4816
b > 0, b = 1279
b > 0, b = 23228
b > 0, b = 5248
main.c:30:30: runtime error: signed integer overflow: 56401 * 56401 cannot be represented in type 'int'
b < 0, b = -16997
b > 0, b = 8648
b > 0, b = 21989
b > 0, b = 7907
b > 0, b = 970
b > 0, b = 15575

参考连接

pragma pack() 用GCC编译时不接受宏参数

2025-10-06T18:20:33+00:00

#pragma pack()括号中的参数如果是一个宏, 那么在GCC和MSVC中处理的方式不一样.

原因分析

使用GCC编译器时， #pragma pack() 中指定的对齐字节数, 不能通过宏来传递, 而MSVC则可以通过宏来传递。

测试代码

定义了一个结构体A，在使用#pragma pack(2)时, A占6字节，如果不使用则占8字节。

// main.c
#include 
#include 

#if USE_MACRO
#define ALIGN 2
#pragma pack(ALIGN)
#else
#pragma pack(2)
#endif
typedef struct {
    uint16_t a;
    uint32_t b;
} A;
#pragma pack()

int main() {
    printf("sizeof A: %u\n", sizeof(A));
    return 0;
}

测试结果

❯ gcc -o main -DUSE_MACRO=0 main.c && ./main
sizeof A: 6
❯ gcc -o main -DUSE_MACRO=1 main.c && ./main
main.c:7:14: warning: unknown action ‘ALIGN’ for ‘#pragma pack’ - ignored [-Wpragmas]
    7 | #pragma pack(ALIGN)
      |              ^~~~~
sizeof A: 8

测试后可以发现在不使用宏定义的情况下，结果是正确的, 但是如果使用宏定义，GCC编译时也会有相应的warning提示。

另外，如果在windows上采用MSVC编译器，即使使用宏定义，结果也会是正确的。