OpenBLAS在ARM架构下小矩阵乘法性能优化分析

2025-06-01 05:30:42作者：秋泉律Samson

OpenBLAS is an optimized BLAS library based on GotoBLAS2 1.13 BSD version.

项目地址：https://gitcode.com/gh_mirrors/op/OpenBLAS

性能差异现象

在ARM架构的Graviton3处理器上，使用OpenBLAS进行小规模矩阵乘法运算时，相比x86架构的Intel MKL库，出现了明显的性能差距。特别是在矩阵维度较小的情况下，如1×512×2048这种特殊形状的矩阵乘法，性能差异尤为显著。

技术背景分析

OpenBLAS作为开源的BLAS实现，目前针对ARM64架构尚未专门优化小矩阵乘法运算。而商业库如Intel MKL和Arm Performance Libraries(ARM PL)则针对各种特殊情况进行了更细致的优化。

关键发现

特殊形状处理：当矩阵乘法中一个维度为1时（如1×N×K），实际上可以降级为矩阵-向量乘法(GEMV)运算。测试表明，ARM PL库会自动识别这种情况并调用更高效的GEMV实现。
线程调度问题：在小矩阵运算时，过早启用多线程反而会导致性能下降。OpenBLAS当前的线程调度策略可能没有针对小矩阵场景做特别优化。
计时方法误区：使用clock()函数测量多线程程序时，会累计所有线程的CPU时间，导致测量结果失真。正确的做法是使用wall-clock时间测量。

性能优化方向

特殊形状检测：在GEMM接口中增加对特殊形状矩阵的检测，当发现一个维度为1时自动降级调用GEMV运算。
小矩阵专用内核：开发针对小矩阵优化的专用计算内核，避免通用GEMM实现的开销。
智能线程调度：根据矩阵规模动态调整线程使用策略，小矩阵时减少或禁用多线程。
架构特定优化：针对Neoverse V1等ARM架构特性，优化内存访问模式和指令流水线使用。

社区进展

OpenBLAS社区已经注意到这一问题，并开始讨论相关优化方案。目前已有初步代码修改提议，计划在GEMM接口中增加对特殊形状矩阵的自动检测和优化路径选择。

实践建议

对于需要处理大量小矩阵运算的应用，开发者可以考虑：

针对特殊形状矩阵手动调用GEMV代替GEMM
对于固定的小矩阵尺寸，可以预先生成优化内核
合理设置线程数，避免小矩阵运算时的线程开销
使用正确的性能测量方法，避免计时误差

随着开源社区的持续优化，OpenBLAS在ARM架构上的小矩阵运算性能有望得到显著提升。

OpenBLAS is an optimized BLAS library based on GotoBLAS2 1.13 BSD version.

项目地址：https://gitcode.com/gh_mirrors/op/OpenBLAS

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库