oneDNN中INT8矩阵乘法内存格式与内核选择的深度解析

2025-06-18 02:29:58作者：董宙帆

项目地址：https://gitcode.com/gh_mirrors/mk/mkl-dnn

内存格式对INT8矩阵乘法性能的影响

在oneDNN（前身为MKL-DNN）中，当使用INT8数据类型（u8:s8:u8）执行矩阵乘法运算时，内存格式的选择会显著影响最终的性能表现。通过实验我们发现，当矩阵B（权重矩阵）使用不同的内存格式描述符时，系统会选择完全不同的计算内核，导致性能差异可达数千倍。

两种内存格式的对比实验

我们以700x1024与1024x512的矩阵乘法为例，对比了两种内存格式配置方式：

动态格式（tag::any）：让库自动选择最优格式
- 执行内核：brg_matmul:avx512_core_vnni
- 执行时间：2.63ms
- 实际使用的内存格式：wei_s8::blocked:BA16a64b4a:f8:zpm2
静态格式（tag::BA16a64b4a）：显式指定格式
- 执行内核：ref_int8
- 执行时间：5834.56ms
- 实际使用的内存格式：wei_s8::blocked:BA16a64b4a:f0

内存格式标记解析

在oneDNN的verbose输出中，内存格式标记包含重要信息：

BA16a64b4a：表示分块内存布局，其中：
- B表示批次维度
- A表示矩阵维度
- 16a表示外部分块大小为16
- 64b表示内部分块大小为64
- 4a表示最内层分块为4
f0/f8：额外标志位
- f0表示无特殊标志
- f8表示启用了非对称卷积补偿
zpm2：零点掩码
- 表示使用每通道（2维）的零值补偿

内核选择机制分析

oneDNN会根据以下因素自动选择最优计算内核：

动态格式的优势：
- 允许库根据硬件特性和问题规模选择最优内存布局
- 可以自动添加必要的补偿缓冲区
- 支持AVX-512 VNNI等硬件加速指令
静态格式的限制：
- 当显式指定BA16a64b4a格式时，库无法添加必要的补偿缓冲区
- 导致必须回退到参考实现（ref_int8）
- 无法利用硬件加速特性

性能优化建议

对于INT8矩阵乘法运算，建议开发者：

优先使用tag::any让库自动选择最优格式
仅在完全理解内存布局影响时才显式指定格式
注意零点和缩放因子的设置会影响内核选择
使用DNNL_VERBOSE=1输出验证实际使用的内核

技术实现细节

当使用动态格式时，oneDNN内部会：

分析矩阵维度和硬件能力
自动添加必要的补偿缓冲区
选择支持VNNI指令的BRGEMM内核
生成最优的内存访问模式

而显式指定格式会绕过这些优化步骤，导致性能下降。特别是在处理非对称量化（使用零点）的情况下，这种差异会更加明显。

总结

oneDNN的内存格式选择机制为深度学习推理提供了重要的性能优化手段。理解这些底层机制有助于开发者充分发挥硬件潜力，特别是在INT8量化推理场景下。建议开发者在大多数情况下信任库的自动优化能力，仅在特殊需求时才干预内存格式选择。

项目地址：https://gitcode.com/gh_mirrors/mk/mkl-dnn

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Ascend Extension for PyTorch

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

ohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！