OpenBLAS 0.3.29版本发布：性能优化与跨平台支持全面升级

2025-06-09 22:18:25作者：齐冠琰

OpenBLAS是一个高性能的基础线性代数子程序库（BLAS），它针对各种处理器架构进行了高度优化。作为科学计算和机器学习领域的基础组件，OpenBLAS为矩阵运算、向量操作等提供了高效的实现。最新发布的0.3.29版本带来了多项重要改进，包括性能优化、错误修复以及对新硬件平台的支持。

核心架构改进

本次更新在基础架构层面进行了多项重要改进。首先解决了多线程构建中可能出现的空指针解引用问题，增强了库的稳定性。同时增加了GEMMT函数的别名GEMMTR，以保持与Reference-BLAS的兼容性。对于使用CMake构建的项目，最低CMake版本要求提升至3.16.0，消除了许多兼容性和废弃警告。

在多线程性能方面，SBGEMV（单精度带状矩阵向量乘法）和TRTRI（三角矩阵求逆）的线程扩展性得到了显著改善。此外，还修复了多线程BLAS3调用中可能出现的精度问题，确保了计算结果的准确性。

跨平台与编译器支持

0.3.29版本显著扩展了对不同平台和编译器的支持：

新增了对NAG Fortran编译器的支持
针对LLVM18及更高版本的flang-new编译器改进了选项处理
适应了Cray和NVIDIA编译器的最新调用约定变化
修复了Windows on Arm平台的编译问题
增加了对IOS系统和NetBSD（evbarm架构）的支持
解决了使用NVIDIA编译器编译SVE目标时的问题

各架构专项优化

ARM64架构

ARM64平台获得了多项重要更新，包括修复了c/zgemm_beta内核中长期存在的数组越界问题，重写了CPU自动检测逻辑以扫描所有核心并返回最高性能类型。对于SVE（可伸缩向量扩展）目标，DGEMM（双精度矩阵乘法）在小矩阵情况下的性能得到提升，并新增了ROT和SWAP操作的SVE内核。

特别值得注意的是，SGEMV和DGEMV（单/双精度矩阵向量乘法）在A64FX和NEOVERSEV1处理器上的SVE内核性能得到优化，同时增加了对Apple M4处理器的自动检测和初步支持。

x86_64架构

x86_64平台修复了Cooper Lake架构上SBGEMV内核的存储大小问题，增加了对Intel Granite Rapids和AMD Ryzen 5系列处理器的自动检测。新增了针对AVX目标的优化SOMATCOPY_CT（单精度矩阵转置复制）实现，并重新启用了EXPRECISION选项的构建。

POWER架构

POWER平台修复了多线程SBGEMM（单精度带状矩阵乘法）的问题，改进了SGEMV性能，并增加了向量化的SBGEMV实现。特别针对POWER10处理器，新增了优化的CGEMM和ZGEMM（单/双精度复数矩阵乘法）内核。

其他架构

MIPS64、Loongarch64和RISC-V架构也获得了多项改进。Loongarch64平台新增了LASX目标的优化SOMATCOPY实现，并引入了新的CPU命名方案。RISC-V平台则优化了SNRM2/DNRM2（单/双精度向量2范数）在RVV1.0目标上的性能，并修复了多个实现问题。

构建系统与工具链改进

构建系统方面，0.3.29版本修复了pkgconfig文件中-fopenmp标志和libsuffix的放置问题，改进了Makefile构建生成的CMakeConfig文件。新增了单独的"make install_tests"目标，便于交叉编译场景下的使用。

对于开发者而言，修复了使用gcc14编译CBLAS测试套件的问题，并改进了pybench基准测试的构建说明。文档方面增加了对WoA（Windows on Arm）和HarmonyOS的构建指导，以及影响构建和运行时行为的环境变量说明。

数值计算与API改进

在数值计算方面，修复了PPC架构上SSCAL和DSCAL（单/双精度向量缩放）处理NaN和Inf参数的问题，确保了特殊值的正确处理。API层面修正了cblas.h中cblas_?geadd的const正确性，并修复了转换后的LAPACK C版本中TRTRS（三角方程组求解）的函数签名。

总结

OpenBLAS 0.3.29版本是一个重要的维护更新，在多线程性能、跨平台支持和特定架构优化方面都有显著提升。特别是对ARM SVE扩展和RISC-V向量指令集的支持不断完善，使得OpenBLAS能够在更多新兴硬件平台上发挥最佳性能。对于科学计算和高性能计算应用开发者来说，升级到这个版本将获得更好的稳定性和性能表现。

OpenBLAS

OpenBLAS is an optimized BLAS library based on GotoBLAS2 1.13 BSD version.

项目地址：https://gitcode.com/gh_mirrors/op/OpenBLAS

登录后查看全文