OpenBLAS在Nvidia Grace和A64FX处理器上的性能对比分析

2025-06-02 05:39:31作者：冯梦姬Eddie

项目地址：https://gitcode.com/gh_mirrors/ope/OpenBLAS

本文分析了OpenBLAS 0.3.26在不同ARM架构处理器上的矩阵乘法性能表现，重点比较了ARMV8SVE和ARMV8内核在Nvidia Grace和富士通A64FX处理器上的性能差异。

测试环境与方法

测试使用了OpenBLAS 0.3.26版本，编译器为GCC 11.4.1。性能测试通过Julia语言的peakflops函数完成，该函数测量双精度矩阵乘法(GEMM)的浮点运算性能。测试矩阵大小为20000×20000，确保能充分反映处理器在高强度计算任务下的表现。

Nvidia Grace处理器测试结果

在72线程的Nvidia Grace处理器上，测试发现了意外的结果：

使用ARMV8SVE内核时，峰值性能约为1.98 TFLOPS
使用ARMV8内核时，峰值性能提升至约2.22 TFLOPS
使用NEOVERSEV1内核时，性能与ARMV8相近，约为2.25 TFLOPS

这一结果与预期相反，因为通常SVE(可伸缩向量扩展)内核应该能提供更好的性能。进一步测试了不同线程数下的性能表现，发现两种内核的线程扩展性相似，但ARMV8内核的基线性能更高。

A64FX处理器对比测试

作为对比，在48线程的富士通A64FX处理器上测试得到了符合预期的结果：

ARMV8SVE内核性能约为0.87 TFLOPS
ARMV8内核性能仅为0.14 TFLOPS

这表明SVE内核在A64FX上确实发挥了优势，性能提升显著。

技术分析

造成Nvidia Grace上SVE内核表现不佳的可能原因包括：

Neoverse V2处理器的SVE向量宽度与ASIMD相同，使得SVE扩展的优势不明显
当前的GEMM参数(P和Q)可能不适合Neoverse V2的缓存结构
内核优化主要针对A64FX架构，对Neoverse V2的适配不足

解决方案与建议

针对这一问题，OpenBLAS社区已通过临时方案解决：

对于Neoverse V2架构，默认使用NEOVERSEV1内核而非ARMV8SVE
未来需要针对不同处理器的缓存特性调整GEMM参数

性能优化建议

对于使用Nvidia Grace处理器的用户：

显式设置OPENBLAS_CORETYPE=NEOVERSEV1环境变量
根据实际应用调整线程数，测试显示72线程下性能最佳
关注OpenBLAS后续版本对Neoverse V2的专门优化

结论

本次测试揭示了OpenBLAS在不同ARM架构处理器上的性能差异，强调了针对特定微架构优化的重要性。虽然SVE扩展在A64FX上表现出色，但在Neoverse V2架构上，传统ARMV8内核反而能提供更好的性能。这为OpenBLAS未来的架构适配工作提供了重要参考。

OpenBLAS

项目地址：https://gitcode.com/gh_mirrors/ope/OpenBLAS

登录后查看全文

项目优选

收起

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

方舟分析器：面向ArkTS语言的静态程序分析框架

TypeScript

113

note-gen

一款跨平台的 Markdown AI 笔记软件，致力于使用 AI 建立记录和写作的桥梁。

TSX

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

Markdown

1.09 K

WxJava

微信开发 Java SDK，支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发，记得关注公众号及时接受版本更新信息，以及加入微信群进行深入讨论

Java

831

MateChat

前端智能化场景解决方案UI库，轻松构建你的AI应用，我们将持续完善更新，欢迎你的使用与建议。官网地址：https://matechat.gitcode.com

737

105

OpenBLAS在Nvidia Grace和A64FX处理器上的性能对比分析

测试环境与方法

Nvidia Grace处理器测试结果

A64FX处理器对比测试

技术分析

解决方案与建议

性能优化建议

结论

热门内容推荐

最新内容推荐

项目优选

OpenBLAS在Nvidia Grace和A64FX处理器上的性能对比分析

测试环境与方法

Nvidia Grace处理器测试结果

A64FX处理器对比测试

技术分析

解决方案与建议

性能优化建议

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选