oneDNN在AArch64 SVE架构上的卷积性能分析与优化

2025-06-18 05:04:55作者：伍霜盼Ellen

oneAPI Deep Neural Network Library (oneDNN)

项目地址：https://gitcode.com/gh_mirrors/on/oneDNN

性能问题背景

在AArch64 SVE 256位架构上运行特定卷积操作时，用户遇到了显著的性能差异问题。该卷积操作的参数为：输入通道64，输入尺寸2560×1440，输出通道3，卷积核尺寸9×9，步长1×1，填充4×4。理论计算量为114.66GFlops，基于2.9GHz处理器频率和256位SVE向量单元的理论峰值性能应为92.8GFlops/s，预期执行时间约为1.23秒。

实际性能表现

使用oneDNN 3.4版本时，实际执行时间达到了60秒以上，远高于理论预期。性能分析显示，实现路径为"ref:any"参考实现，而非优化后的实现。进一步测试发现：

浮点32位(f32)卷积操作未能触发ARM Compute Library(ACL)优化路径
浮点16位(f16)卷积操作因数据类型支持问题被跳过
尝试使用Winograd算法时同样遇到内核不支持的问题

问题根源分析

经过深入分析，发现几个关键因素影响了性能：

内存格式支持限制：当前ACL实现不支持特定f32内存格式
数据类型兼容性：f16卷积操作不支持与f32偏置混合使用
内核优化缺失：针对特定问题规模的优化内核尚未实现

解决方案与验证

升级到最新版oneDNN后，性能得到显著提升：

相同卷积操作的执行时间从60秒降低到约1.2秒
性能提升达50倍，接近理论峰值
验证了新版对AArch64架构的优化效果

技术建议

对于在AArch64 SVE架构上使用oneDNN的开发人员，建议：

始终使用最新版oneDNN以获得最佳性能
对于f16卷积操作，确保所有张量使用一致的数据类型
性能关键应用应进行实际基准测试，而非仅依赖理论计算
关注特定问题参数与优化实现的匹配情况

结论

oneDNN在AArch64 SVE架构上的性能表现高度依赖于版本选择和具体实现路径。通过版本升级和参数调优，可以显著提升卷积操作的执行效率。开发者应当充分了解硬件特性和软件优化限制，以获得最佳性能表现。

oneAPI Deep Neural Network Library (oneDNN)

项目地址：https://gitcode.com/gh_mirrors/on/oneDNN

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架