oneDNN在AArch64架构下测试失败问题分析与解决方案

2025-06-18 05:20:04作者：滑思眉Philip

oneAPI Deep Neural Network Library (oneDNN)

项目地址：https://gitcode.com/gh_mirrors/on/oneDNN

问题背景

在AArch64架构（ARM平台）上构建oneDNN 3.4版本时，虽然构建过程顺利完成，但在运行测试套件时出现了失败情况。具体表现为在运行test_large_partition_execute.Int8Resnet50Stage2Block测试用例时，数值比较验证失败。

问题现象

测试失败的具体表现为：

index = 3, a = 14, b = 12, diff = 2, atol = 1, rtol = 0.01. Failed.
Value of: allclose<uint8_t>(outputs_ts[0], ref_outputs_ts[0], 0.01f, 1.f)
  Actual: false
Expected: true

测试用例比较了计算输出与参考输出之间的差异，允许的相对误差为1%，绝对误差为1。然而在实际测试中，某些位置出现了差异为2的情况，超出了设定的容错范围。

技术分析

数据类型限制变更：
- oneDNN 3.3.3版本使用的是通用模板的allclose函数
- oneDNN 3.4版本明确指定了uint8_t数据类型限制
- 这一变更是为了支持新的test_tensor功能，使验证过程能更好地适应不同计算引擎
平台差异影响：
- AArch64架构使用SVE指令集（256位）进行计算
- 不同平台可能采用不同的指令或算法实现，导致计算结果存在微小差异
- 这种差异在大型计算问题中可能会被放大
测试策略考量：
- oneDNN主要依赖benchdnn进行跨平台的稳定性验证
- 当前测试用例作为冒烟测试，使用固定输入数据进行验证
- 现有的验证标准在Intel平台上表现良好，但在ARM平台上可能过于严格

解决方案

临时解决方案：
- 可以跳过该测试用例继续其他测试
- 在CI环境中，该项目已经将该测试标记为跳过
长期解决方案：
- 考虑针对AArch64平台调整验证标准
- 适当放宽容错范围，考虑平台特定的数值特性
- 或者为不同平台设置不同的验证参数

技术建议

对于在ARM平台上使用oneDNN的开发者：

如果测试失败不影响实际应用场景，可以考虑忽略该测试失败
对于关键应用，建议使用更全面的benchdnn进行验证
关注oneDNN后续版本中对该问题的修复情况
在实际部署前，建议针对特定工作负载进行充分的验证测试

总结

oneDNN作为高性能深度学习原语库，在不同硬件架构上的实现可能存在细微差异。AArch64架构上的测试失败反映了跨平台兼容性验证的挑战。开发者应当理解这种差异的根源，并根据实际应用需求选择合适的验证策略。oneDNN团队也在持续改进跨平台支持，未来版本有望提供更完善的ARM平台支持。

oneAPI Deep Neural Network Library (oneDNN)

项目地址：https://gitcode.com/gh_mirrors/on/oneDNN

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。