oneDNN在AArch64平台上matmul内核断言失败问题分析与解决

2025-06-18 00:18:39作者：田桥桑Industrious

问题背景

在AArch64架构的CPU平台上，使用oneDNN进行矩阵乘法(matmul)运算时，当调用acl_matmul内核时会出现断言失败的问题。该问题主要影响与自注意力机制(SDPA/MHA/MQA)相关的图计算测试用例，导致多个测试用例被跳过或失败。

问题现象

当运行特定形状的矩阵乘法运算时，程序会在acl_matmul内核中触发断言失败，错误信息如下：

Assertion `FixedFormat || _B_transposed' failed.
Aborted (core dumped)

环境信息

硬件平台：AArch64架构CPU
操作系统：Ubuntu 22.04.1
编译器：GCC 11.4.0
oneDNN版本：主分支最新提交(af1410c2)
Compute Library版本：v24.11.1

问题复现

通过一个特定的矩阵乘法示例可以稳定复现该问题：

矩阵维度：
- 输入矩阵A：形状为[4,16,384,384]
- 输入矩阵B：形状为[4,16,384,64]
- 输出矩阵C：形状为[4,16,384,64]
关键特征：
- 使用OpenMP多线程并行(4线程)
- 矩阵B使用了abdc格式(即对最后两个维度进行了转置)

问题分析

经过深入分析，发现问题根源在于Compute Library(ACL)的矩阵乘法内核实现。具体来说：

当使用多线程并行执行时，某些线程配置会触发断言失败
问题与矩阵B的转置状态有关
某些特定形状(如384x64和64x384)可以正常工作
减少线程数量可以暂时规避该问题

解决方案

ARM团队已经在Compute Library v52.0.1版本中修复了这个问题。主要修复内容包括：

改进了矩阵转置处理逻辑
增强了多线程环境下的稳定性
修复了断言条件检查

验证结果

在升级到Compute Library v52.0.1后：

原始复现用例可以正常执行
相关断言不再触发
多线程环境下运行稳定

后续工作

虽然大部分问题已经解决，但仍有少量测试用例需要进一步处理：

完善剩余两个测试用例的支持
在oneDNN中升级默认的Compute Library版本
重新启用之前跳过的图计算测试用例

技术建议

对于使用oneDNN在AArch64平台上的开发者：

建议使用最新版本的Compute Library(v52.0.1或更高)
对于矩阵乘法运算，注意输入矩阵的布局格式
在多线程环境下进行充分测试
关注oneDNN的版本更新，及时获取稳定性改进

该问题的解决为AArch64平台上的深度学习计算提供了更好的稳定性和性能，特别是在处理自注意力机制等复杂模型时。

oneDNN

oneAPI Deep Neural Network Library (oneDNN)

项目地址：https://gitcode.com/gh_mirrors/on/oneDNN

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.35 K

758