OpenBLAS在ARM64架构上的GEMM转GEMV性能回归问题分析

2025-06-01 03:29:32作者：牧宁李

问题背景

在OpenBLAS 0.3.28版本中，ARM64架构平台出现了DGEMM（双精度通用矩阵乘法）性能显著下降的问题。这一问题源于该版本引入的GEMM到GEMV（通用矩阵-向量运算）自动转换优化功能。测试数据显示，在某些情况下，这种转换会导致性能下降达一个数量级。

性能测试数据

在不同ARM64处理器平台上进行的测试显示了明显的性能差异：

处理器型号	启用转换(默认)	禁用转换
Ampere Altra	0.77 GFLOPS	4.05 GFLOPS
AWS Graviton3	0.72 GFLOPS	7.64 GFLOPS
NVIDIA Grace	0.92 GFLOPS	12.21 GFLOPS

进一步分析表明，性能瓶颈主要出现在GEMV核函数的标量代码部分。即使尝试使用针对富士通A64FX处理器优化的内核，性能虽有提升但仍不及直接使用GEMM实现。

技术分析

问题的核心在于GEMM到GEMV的自动转换条件不够严格。当前实现在以下情况下会触发转换：

当矩阵乘法的一个维度为1时（m=1或n=1）
不考虑矩阵在内存中的布局方式（如leading dimension）

这种转换在x86架构上通常能带来性能提升，但在ARM64架构上，由于GEMV实现尚未充分优化，特别是对于非连续内存访问模式，反而会导致性能下降。

解决方案

经过深入分析，提出了以下改进方案：

增加转换条件检查，确保只有在内存访问模式高效时才进行转换
具体判断逻辑为：对于转置操作，要求内存访问步长为1；对于非转置操作，要求输出向量的内存访问步长为1
这些条件可以避免触发ARM64平台上性能较差的标量GEMV实现

改进后的代码通过条件判断来确保转换只在确实能带来性能提升的情况下进行，从而避免了性能回退。

实现建议

在实际实现中，建议：

使用布尔标志明确标识高效转换条件
避免使用goto语句，保持代码结构清晰
针对ARM64平台进行特殊处理，因为这个问题在该平台上表现最为明显

结论

GEMM到GEMV的自动转换是一个有用的优化技术，但需要根据具体硬件平台特性进行适当调整。在ARM64架构上，由于GEMV实现尚未充分优化，需要更严格的转换条件来避免性能下降。这一发现提醒我们，性能优化技术需要针对不同硬件平台进行充分验证和调优。

OpenBLAS

OpenBLAS is an optimized BLAS library based on GotoBLAS2 1.13 BSD version.

项目地址：https://gitcode.com/gh_mirrors/op/OpenBLAS

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。