oneDNN在ARM架构上的卷积性能回归问题分析与解决

2025-06-18 20:26:17作者：裴麒琰

问题背景

在深度学习推理框架oneDNN中，开发人员发现当使用ARM Compute Library(ACL)作为后端时，在Apple M2 Pro处理器上出现了卷积操作的性能退化现象。具体表现为某些特定卷积配置在ACL版本升级后执行时间显著增加。

性能退化现象

通过benchdnn测试工具，开发人员复现了以下典型性能退化案例：

对于输入形状为mb1_ic16oc96_ih112oh112kh1的卷积操作：
- ACL 24.09版本耗时：0.135毫秒
- ACL 24.11版本耗时：0.4毫秒
对于输入形状为mb1_ic144oc24_ih56oh56kh1的卷积操作：
- ACL 24.09版本耗时：0.1毫秒
- ACL 24.11版本耗时：0.22毫秒
对于输入形状为mb1_ic24oc144_ih56oh56kh1的卷积操作：
- ACL 24.09版本耗时：0.099毫秒
- ACL 24.11版本耗时：0.196毫秒

问题分析

经过技术团队调查，发现性能退化主要源于以下几个方面：

ACL版本兼容性问题：oneDNN 3.6.2版本要求最低ACL版本为24.11.1，而早期测试中使用了不兼容的ACL 24.09版本，导致性能基准不一致。
特定卷积配置敏感：某些特定形状的卷积操作（如1x1卷积）对底层实现的变化特别敏感，微小的算法调整可能导致显著的性能差异。
内存布局影响：测试中使用的"acdb"内存布局（一种特殊的NHWC变体）对性能有较大影响，当切换为"any"布局时性能表现会有所不同。

解决方案与验证

技术团队采取了以下措施解决该问题：

版本控制：确保使用兼容的ACL版本组合，避免因版本不匹配导致的性能问题。
问题定位：通过分析发现，导致性能退化的补丁已被回滚，后续版本中性能退化程度有所减轻。
持续监控：建立更完善的性能基准测试体系，对关键卷积操作进行定期性能监控。
版本升级验证：在ACL v52.1.0版本上验证，确认性能已恢复到合理水平：
- 原始测试案例在ACL v52.1.0上分别耗时0.15毫秒、0.11毫秒和0.11毫秒

技术建议

对于使用oneDNN和ACL的开发者，建议：

始终使用官方推荐的版本组合，避免兼容性问题。
对于性能关键的应用，建议进行全面的基准测试，覆盖各种可能的输入形状和内存布局。
关注oneDNN的verbose输出（使用ONEDNN_VERBOSE=dispatch），了解实际调用的内核实现。
对于Apple Silicon等ARM架构处理器，特别注意内存布局对性能的影响，必要时进行布局优化。

结论

本次性能回归问题展示了深度学习框架底层优化的重要性。通过技术团队的及时响应和深入分析，不仅解决了特定版本下的性能退化问题，还建立了更完善的性能监控机制。这为oneDNN在ARM架构上的持续优化奠定了坚实基础，也为开发者提供了宝贵的性能调优经验。

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter