NVIDIA NCCL中启用NIC的GPU Direct RDMA技术指南

2025-06-19 20:54:16作者：姚月梅Lane

背景介绍

在现代高性能计算和深度学习训练场景中，GPU与网络接口卡(NIC)之间的高效数据传输至关重要。NVIDIA Collective Communications Library (NCCL) 通过GPU Direct RDMA (GDR)技术，可以实现GPU显存与网络设备之间的直接数据传输，绕过CPU和系统内存，显著降低延迟并提高吞吐量。

技术原理

GPU Direct RDMA技术允许支持该功能的网络设备(如Mellanox ConnectX系列)直接访问GPU显存，无需通过主机内存进行数据中转。这种技术特别适用于多节点分布式训练场景，可以大幅减少数据在节点间传输的延迟。

当系统拓扑显示GPU与NIC处于同一PCIe交换机下或通过NVLink连接时，理论上应能支持GDR功能。但在实际应用中，可能需要额外的配置才能启用这一特性。

问题现象

用户在使用Tesla A40 GPU和Mellanox ConnectX-7网卡时发现，虽然硬件拓扑显示GPU与NIC连接良好，但NCCL_TOPO_DUMP_FILE显示网卡的GDR功能被禁用(gdr="0")。这会导致数据传输无法发挥硬件的最佳性能。

解决方案

要启用NIC的GDR功能，需要加载NVIDIA的peermem内核模块。具体步骤如下：

手动加载内核模块：

modprobe nvidia_peermem

设置系统启动时自动加载该模块：

echo "nvidia-peermem" | sudo tee /etc/modules-load.d/nvidia-peermem.conf

验证方法

启用后，可以通过以下方式验证GDR是否正常工作：

检查内核模块是否加载：

lsmod | grep nvidia_peermem

重新运行NCCL测试程序，观察性能提升和日志中的GDR状态变化。

注意事项

此解决方案适用于CUDA 11.5.1及更高版本
系统重启后需要确保模块自动加载
需要确认网卡驱动和固件版本支持GDR功能
不同Linux发行版可能需要调整模块加载方式

性能影响

成功启用GDR后，在分布式训练场景中通常可以观察到：

节点间通信延迟降低20-50%
带宽利用率提高30%以上
CPU利用率显著下降
整体训练吞吐量提升

通过正确配置GPU Direct RDMA功能，可以充分发挥现代GPU计算集群的硬件潜力，为大规模深度学习训练提供最优的网络通信性能。

nccl

Optimized primitives for collective multi-GPU communication

项目地址：https://gitcode.com/gh_mirrors/nc/nccl

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

454

436

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。