oneDNN v3.7 深度神经网络加速库重大更新解析
项目简介
oneDNN(原名Intel MKL-DNN)是英特尔开源的深度神经网络加速库,专注于为深度学习工作负载提供高性能的底层计算支持。作为深度学习框架的重要底层组件,oneDNN通过针对不同硬件架构的深度优化,显著提升了神经网络训练和推理的计算效率。最新发布的v3.7版本带来了多项性能优化、功能增强和可用性改进,值得深度学习开发者和研究者关注。
性能优化亮点
CPU架构性能提升
针对Intel处理器架构,v3.7版本进行了多方面的性能优化:
-
Xeon处理器优化:针对支持AMX指令集的Intel Xeon处理器,显著提升了卷积和矩阵乘法(matmul)原语的性能。特别是fp8矩阵乘法配合bf16和fp16偏置数据类型的计算效率得到明显改善。
-
AVX指令集优化:在支持AVX2指令集的处理器上,int8和fp32前向卷积原语性能提升;在AVX2和AVX-512处理器上,int8 RNN原语和带逐通道零点的int8深度可分离卷积性能均有改善。
-
精度优化:fp16和bf16 softmax在放松累积模式下的性能提升;int8矩阵乘法配合fp16输出数据类型的计算效率提高。
GPU架构性能突破
针对Intel显卡产品线:
-
新架构支持:首次为基于Xe3架构的Intel GPU提供初步优化支持,包括Intel Core Ultra处理器和Intel Arc B系列独立显卡。
-
特定优化:卷积原语中带源零点的计算性能通过预打包补偿得到提升;大滤波器带步长的反向数据卷积性能改善。
-
图API优化:改进了带有隐式因果掩码的Scaled Dot-Product Attention(SDPA)、使用int8/int4压缩键值的SDPA以及Gated MLP等子图的性能。
ARM架构进步
针对AArch64处理器:
-
bf16优化:使用Arm Compute Library(ACL)时,bf16矩阵乘法配合fp32目标的性能提升;bf16到fp32的重排序性能改善。
-
卷积优化:配合ACL的bf16卷积性能得到提升。
重要功能更新
通用功能增强
-
新增算法支持:在二元原语中引入select算法支持,特别针对Intel CPU进行了优化。
-
量化扩展:在矩阵乘法和重排序操作中扩展了对分组量化的支持,包括分组比例因子和零点,适用于Intel CPU和GPU。
-
4位浮点支持:初步支持f4_e2m1和f4_e3m0等4位浮点数据类型,以及e8m0比例因子数据类型,可用于矩阵乘法和重排序操作。
-
图API扩展:新增GenIndex和GreaterEqual操作支持。
特定硬件功能
-
Intel CPU:支持fp32矩阵乘法配合fp16和bf16权重。
-
Intel GPU:引入基于Philox计数器的随机数生成器的随机舍入支持;支持卷积中的跨步内存格式。
-
通用GPU:新增归约原语支持;引入内积原语前向传播支持。
开发者体验改进
通用可用性提升
-
SYCL运行时优化:CPU引擎上的内存对象现在采用引用计数,不再需要显式保持存活状态,与GPU引擎行为一致。
-
示例丰富:新增Gated MLP和int4 Gated MLP模式的图API示例。
诊断与调试增强
-
Intel CPU/GPU:改进了详细诊断信息,能更好识别调度、原语和内核创建阶段的问题。
-
性能分析:在Intel64平台上启用帧指针支持,便于与性能分析工具集成。
-
Intel GPU:改进了驱动兼容性问题的诊断信息;增强了对大尺寸张量的支持;减少了NCHW卷积的暂存内存使用。
ARM架构改进
-
线程调度:通过ThreadpoolScheduler支持ACL的thread_local调度器。
-
内存效率:修复了ACL矩阵乘法中暂存内存未使用的问题。
-
线程安全:使ACL矩阵乘法原语线程安全,支持并发执行。
验证与测试增强
-
benchdnn扩展:增加了对fp8矩阵乘法模式的支持;支持在测试JSON文件中重写数据类型;支持验证返回的分区数量。
-
RNN验证:增加了对RNN原语验证中张量标签的支持。
重要变更与弃用
-
环境要求提升:
- CMake最低版本要求提升至3.13
- GCC最低版本要求提升至8.0
- Clang最低版本要求提升至11.0
- ACL最低版本要求提升至24.11.1
-
SYCL标准:移除了对SYCL 2020之前标准的支持。
-
精度模式:在不支持Intel XMX架构的Intel显卡产品上,fp16矩阵乘法和内积原语强制使用fp32累积模式。
-
弃用功能:实验性的图编译器功能已被标记为弃用,将在未来版本中移除。
技术影响与建议
oneDNN v3.7的发布为深度学习开发者带来了显著的性能提升和功能扩展。针对不同硬件架构的专门优化使得开发者能够更充分地利用计算资源。特别是:
-
对于使用Intel最新CPU和GPU的用户,建议升级以充分利用AMX和Xe架构的优化。
-
量化相关功能的扩展为模型压缩和加速提供了更多可能性,特别是在边缘设备部署场景。
-
新增的原语和操作支持使得网络结构设计更加灵活。
-
诊断和调试功能的增强将显著降低开发者的调试难度。
开发者应评估环境要求变更对现有项目的影响,特别是编译器和构建工具链的版本要求。对于使用将被移除功能的项目,建议尽早进行迁移规划。
总体而言,oneDNN v3.7通过持续的硬件适配和算法优化,进一步巩固了其作为深度学习高性能计算基础库的地位,为各类深度学习应用提供了更强大的底层支持。
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00- DDeepSeek-V3.2-ExpDeepSeek-V3.2-Exp是DeepSeek推出的实验性模型,基于V3.1-Terminus架构,创新引入DeepSeek Sparse Attention稀疏注意力机制,在保持模型输出质量的同时,大幅提升长文本场景下的训练与推理效率。该模型在MMLU-Pro、GPQA-Diamond等多领域公开基准测试中表现与V3.1-Terminus相当,支持HuggingFace、SGLang、vLLM等多种本地运行方式,开源内核设计便于研究,采用MIT许可证。【此简介由AI生成】Python00
openPangu-Ultra-MoE-718B-V1.1昇腾原生的开源盘古 Ultra-MoE-718B-V1.1 语言模型Python00
HunyuanWorld-Mirror混元3D世界重建模型,支持多模态先验注入和多任务统一输出Python00
AI内容魔方AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。03
Spark-Scilit-X1-13BFLYTEK Spark Scilit-X1-13B is based on the latest generation of iFLYTEK Foundation Model, and has been trained on multiple core tasks derived from scientific literature. As a large language model tailored for academic research scenarios, it has shown excellent performance in Paper Assisted Reading, Academic Translation, English Polishing, and Review Generation, aiming to provide efficient and accurate intelligent assistance for researchers, faculty members, and students.Python00
GOT-OCR-2.0-hf阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile013
Spark-Chemistry-X1-13B科大讯飞星火化学-X1-13B (iFLYTEK Spark Chemistry-X1-13B) 是一款专为化学领域优化的大语言模型。它由星火-X1 (Spark-X1) 基础模型微调而来,在化学知识问答、分子性质预测、化学名称转换和科学推理方面展现出强大的能力,同时保持了强大的通用语言理解与生成能力。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00