NVIDIA DALI 1.45.0 发布：CUDA 12.8支持与零拷贝优化

2025-06-11 16:55:07作者：柯茵沙

A GPU-accelerated library containing highly optimized building blocks and an execution engine for data processing to accelerate deep learning training and inference applications.

项目地址：https://gitcode.com/gh_mirrors/da/DALI

NVIDIA Data Loading Library (DALI) 是一个用于深度学习数据预处理的高性能库，它能够显著加速深度学习训练流程中的数据加载和预处理环节。DALI 通过利用 GPU 加速数据预处理，减少了 CPU 和 GPU 之间的数据传输瓶颈，特别适合大规模深度学习训练场景。

主要特性与增强

CUDA 12.8 支持

DALI 1.45.0 版本新增了对 CUDA 12.8 的支持，这是 NVIDIA 最新的 CUDA 工具包版本。CUDA 12.8 带来了一系列性能优化和新特性，DALI 的兼容性更新使得用户能够在最新的 CUDA 环境中充分利用这些改进。

零拷贝数据传输优化

本次更新在 JAX 和 PaddlePaddle 插件中实现了零拷贝(zero-copy)数据传输优化，特别是在使用动态执行器(dynamic executor)时：

JAX 插件优化：通过消除不必要的数据拷贝，显著提高了 DALI 与 JAX 框架之间的数据传输效率
PaddlePaddle 插件优化：同样实现了零拷贝机制，减少了 PaddlePaddle 框架中的数据移动开销

零拷贝技术通过在内存中共享数据而不是复制数据，大幅降低了数据传输延迟和内存占用，对于大规模深度学习训练尤为重要。

重要改进

性能优化

可分离重采样使用 FMA：在可分离重采样操作中引入了融合乘加(FMA)指令，提高了计算效率
动态执行器应用：在 RNN-t 管道中采用了动态执行器，优化了执行流程

API 改进

参数引用处理：改进了 Sphinx 文档中参数引用的处理方式
TensorLayout 返回优化：改为返回 const-reference，减少了不必要的拷贝
DALIDataType 重构：对数据类型系统进行了重构，提高了代码的清晰度和可维护性

构建系统改进

移除了 wheel 名称中的构建标签：简化了包命名
依赖项更新：包括 CV-CUDA 从 0.8 升级到 0.12，google benchmark 从 1.9.0 升级到 1.15.1 等

问题修复

CPU 数据传输修复：修复了通过 .cpu() 调用将 GPU 数据传输到 CPU 后作为关键字参数传递的问题
TFRecordParser 解耦：从 backend_impl 中移除了 TFRecordParser 的依赖
参数寻址修正：改为了使用绝对寻址方式处理参数
nvimagecodec 版本修正：修正了 conda 和安装说明中的版本信息

废弃特性

Pipeline 参数废弃：max_streams 和 default_cuda_stream_priority 参数已被废弃，虽然传递它们不会导致错误，但会触发警告

使用建议

对于大多数用户，建议升级到最新版本以获取性能改进和新特性支持。特别是：

使用 CUDA 12.x 的用户可以从 CUDA 12.8 支持中受益
使用 JAX 或 PaddlePaddle 框架的用户应该体验零拷贝优化带来的性能提升
对于重采样操作密集的应用，FMA 优化将带来明显的计算加速

总结

NVIDIA DALI 1.45.0 版本在性能优化和功能完善方面做出了重要贡献，特别是对最新 CUDA 版本的支持和零拷贝数据传输的实现，进一步巩固了 DALI 作为深度学习数据预处理加速首选工具的地位。这些改进使得 DALI 能够更好地服务于大规模深度学习训练场景，帮助研究人员和工程师更高效地处理日益增长的数据需求。

DALI

A GPU-accelerated library containing highly optimized building blocks and an execution engine for data processing to accelerate deep learning training and inference applications.

项目地址：https://gitcode.com/gh_mirrors/da/DALI

登录后查看全文

NVIDIA DALI 1.45.0 发布：CUDA 12.8支持与零拷贝优化

主要特性与增强

CUDA 12.8 支持

零拷贝数据传输优化

重要改进

性能优化

API 改进

构建系统改进

问题修复

废弃特性

使用建议

总结

热门内容推荐

最新内容推荐

项目优选

NVIDIA DALI 1.45.0 发布：CUDA 12.8支持与零拷贝优化

主要特性与增强

CUDA 12.8 支持

零拷贝数据传输优化

重要改进

性能优化

API 改进

构建系统改进

问题修复

废弃特性

使用建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选