OpenBLAS在RISC-V架构下的测试问题分析与解决方案

2025-06-01 13:36:44作者：翟江哲Frasier

问题背景

在RISC-V架构的开发板上(如Starfive VisionFive 2和SiFive HiFive Unmatched)编译安装OpenBLAS 0.3.27版本时，测试阶段会出现段错误(Segmentation fault)。这个问题特别在使用GCC 13.3.0编译器并启用OpenMP支持(USE_OPENMP=1)时出现。

错误现象

测试程序在完成单精度实数BLAS测试(SBLAT1)后，所有13个子测试都显示"PASS"，但在程序结束时出现段错误。错误信息如下：

Program received signal SIGSEGV: Segmentation fault - invalid memory reference.
Backtrace for this error:

问题分析

经过开发团队的深入调查，发现这个问题与以下几个因素有关：

静态链接问题：在Makefile.riscv64中强制静态链接libgfortran库(-static)是导致段错误的根本原因。这个设置最初是为了支持早期交叉编译而添加的，但在当前环境下反而导致了问题。
OpenMP影响：问题仅在启用OpenMP支持(USE_OPENMP=1)时出现，说明与多线程环境下的内存管理有关。
编译器版本：虽然问题在GCC 12和13版本下都出现，但不同版本的错误表现略有差异。
LAPACK测试问题：修复段错误后，还发现大量LAPACK测试失败，这实际上是另一个已知问题导致的。

解决方案

针对上述问题，开发团队提供了以下解决方案：

移除静态链接：修改Makefile.riscv64，移除对libgfortran的强制静态链接。这个修改已经通过Pull Request提交并合并。
LAPACK测试修复：针对LAPACK测试失败的问题，应用了另一个修复补丁(PR #4647)，解决了测试套件中的bug。

验证结果

应用上述修复后：

段错误问题完全解决，测试程序能够正常完成并退出。
LAPACK测试结果显著改善，从原来的数万个错误减少到仅剩2个微小数值误差：

REAL                    1561872         1       (0.000%)
DOUBLE PRECISION        1570470         0       (0.000%)
COMPLEX                 1025645         1       (0.000%)
COMPLEX16               1030797         0       (0.000%)