oneDNN中per_ocic零点的int8矩阵乘法在aarch64平台上的限制分析

2025-06-18 09:36:32作者：沈韬淼Beryl

在深度学习推理优化中，oneDNN作为Intel推出的高性能深度学习原语库，其矩阵乘法(MatMul)操作支持多种量化模式。本文将重点分析在aarch64架构(特别是Graviton 3处理器)上使用per_ocic(per output channel and input channel)零点策略时遇到的一个特定限制。

问题现象

当在aarch64平台上执行int8矩阵乘法时，如果使用per_ocic零点策略，可以观察到以下现象：

当矩阵维度K(内积维度)是32的倍数时，操作能正常执行
当K不是32的倍数时，操作会返回"unimplemented"错误

具体表现为：

8x32矩阵与32x20矩阵的乘法能成功执行
8x33矩阵与33x20矩阵的乘法会失败

技术背景

per_ocic零点策略是一种细粒度的量化方式，它为权重矩阵的每个输出通道和输入通道组合指定不同的零点。这种策略相比全矩阵共享一个零点能提供更好的量化精度，但实现上也更为复杂。

在oneDNN的实现中，这种策略对矩阵维度有特定要求：

输入通道数(即矩阵的K维度)必须是32的倍数
这一限制源于底层硬件优化考虑，特别是SIMD指令集的高效利用

实现细节

oneDNN代码库中对此限制有明确体现。在matmul.cpp文件中，相关检查逻辑会验证输入通道数是否符合要求。这种限制主要基于以下技术考虑：

现代CPU架构(包括aarch64)通常使用32位或64位宽的SIMD寄存器
将数据对齐到32的倍数可以确保内存访问对齐，提高缓存利用率
许多优化的内核实现(如GEMM)都假设输入尺寸是特定倍数，以展开循环和进行指令级并行

版本演进

这一限制是在oneDNN v3.6版本中引入的。在早期版本(v3.5)中，per_ocic零点策略对输入尺寸没有严格要求，但随着实际使用经验的积累，开发团队确定了更合理的约束条件。

解决方案

对于需要处理非32倍数维度的情况，可以考虑以下替代方案：

使用其他零点策略，如per_oc或全矩阵共享零点
对输入矩阵进行填充(padding)，使其维度达到32的倍数
回退到参考实现(虽然性能可能较低)

最佳实践

在使用oneDNN的量化功能时，建议：

提前检查矩阵维度是否符合所选量化策略的要求
使用ONEDNN_VERBOSE=all环境变量获取详细的执行信息
考虑使用benchdnn工具验证不同配置下的性能表现

理解这些底层限制有助于开发者在设计量化模型时做出更合理的选择，平衡精度要求和性能优化。

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架