OpenBLAS在ARM64架构上的GEMM性能回归问题分析

2025-06-01 17:17:47作者：裘旻烁

OpenBLAS

项目地址：https://gitcode.com/gh_mirrors/ope/OpenBLAS

问题背景

OpenBLAS作为一款高性能线性代数计算库，在0.3.28版本中针对ARM64架构引入了一项优化：将特定形状的矩阵乘法(GEMM)操作转发为矩阵向量乘法(GEMV)操作。这项优化本意是提升性能，但在实际运行中却出现了严重的性能下降问题。

性能问题表现

测试数据显示，在多种ARM64处理器上，当执行特定形状的DGEMM运算时，启用GEMM到GEMV转发会导致性能大幅下降：

在Ampere Altra处理器上，性能从4.05 GFLOP/s降至0.77 GFLOP/s
AWS Graviton3处理器上，从7.64 GFLOP/s降至0.72 GFLOP/s
NVIDIA Grace处理器上，从12.21 GFLOP/s降至0.92 GFLOP/s

性能分析表明，时间主要消耗在ARM64的GEMV内核的标量代码部分，这解释了为何性能会有如此显著的下降。

技术分析

转发机制原理

OpenBLAS的GEMM到GEMV转发机制会检测特定形状的矩阵乘法运算：

当M维度为1时，将运算转发为GEMV操作
当N维度为1时，同样尝试转发

这种转发在x86架构上通常能带来性能提升，因为x86有高度优化的GEMV实现。但在ARM64架构上，当前的GEMV实现还不够成熟，特别是对于某些参数组合的处理效率较低。

问题根源

性能下降的主要原因在于：

ARM64的GEMV内核优化不足，特别是对于非连续内存访问模式
转发条件过于宽松，没有考虑内存布局对性能的影响
标量代码路径占比过高，未能充分利用ARM64的向量指令集

解决方案

经过深入分析，开发者提出了改进方案：

增加转发条件检查，确保只有在内存访问模式高效时才进行转发
对于转置操作，要求步长(inc_x)为1以保证连续访问
对于非转置操作，同样检查输出步长(inc_y)是否合适

核心修改逻辑是：只有当内存访问模式能够保证高效执行时，才触发GEMM到GEMV的转发，否则回退到标准的GEMM实现。

技术意义

这个问题揭示了几个重要的技术考量：

架构特定的优化需要针对不同硬件平台进行充分验证
算法转发机制必须考虑内存访问模式的影响
性能优化不能仅基于运算形状，还需要考虑实际数据布局

结论

OpenBLAS在ARM64架构上的GEMM性能回归问题展示了跨平台优化面临的挑战。通过增加转发条件的严格检查，可以在保留优化机会的同时避免性能下降。这一案例也为其他跨平台数学库的开发提供了宝贵经验：性能优化必须建立在对目标平台特性的深入理解基础上。

OpenBLAS

项目地址：https://gitcode.com/gh_mirrors/ope/OpenBLAS

登录后查看全文

项目优选

收起

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

方舟分析器：面向ArkTS语言的静态程序分析框架

TypeScript

113

note-gen

一款跨平台的 Markdown AI 笔记软件，致力于使用 AI 建立记录和写作的桥梁。

TSX

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

Markdown

1.09 K

WxJava

微信开发 Java SDK，支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发，记得关注公众号及时接受版本更新信息，以及加入微信群进行深入讨论

Java

831

MateChat

前端智能化场景解决方案UI库，轻松构建你的AI应用，我们将持续完善更新，欢迎你的使用与建议。官网地址：https://matechat.gitcode.com

737

105

OpenBLAS在ARM64架构上的GEMM性能回归问题分析

问题背景

性能问题表现

技术分析

转发机制原理

问题根源

解决方案

技术意义

结论

热门内容推荐

最新内容推荐

项目优选

OpenBLAS在ARM64架构上的GEMM性能回归问题分析

问题背景

性能问题表现

技术分析

转发机制原理

问题根源

解决方案

技术意义

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选