NCCL项目中GPU Direct RDMA性能问题的分析与解决

2025-06-19 08:31:45作者：蔡怀权

问题背景

在开发基于NCCL框架的自定义网络插件时，开发团队遇到了一个有趣的性能问题：当使用双端口CX7网卡时，插件性能表现不佳，而在单端口CX7网卡上却能正常工作。经过深入分析，发现问题与GPU Direct RDMA(GDR)结合cudaMalloc的使用方式有关。

现象描述

开发团队编写了一个简单的RDMA写入示例程序进行测试，发现了以下现象：

使用cudaMalloc分配GPU内存时，带宽仅为84Gbps
改用cudaMallocManaged或主机内存时，带宽可达到接近400Gbps的线速
该现象仅在虚拟机环境中出现，在裸机环境中表现正常
使用NCCL自带的net_ib.cc实现时性能表现良好

技术分析

GPU Direct RDMA机制

GPU Direct RDMA是一种允许网卡直接访问GPU内存的技术，避免了数据在主机内存中的中转拷贝。这种技术对于高性能计算和深度学习训练至关重要，可以显著减少通信延迟和提高带宽利用率。

内存分配方式的影响

测试中观察到的性能差异主要源于不同的内存分配方式：

cudaMalloc：分配的是设备专用内存，访问需要显式的数据传输
cudaMallocManaged：统一内存管理，自动处理数据迁移
主机内存：传统的主机端内存分配

虚拟机环境特殊性

在虚拟机环境中，特别是通过SR-IOV配置的VF网卡，内存访问模式可能会受到虚拟化层的影响。虽然NCCL能够正常工作，但自定义实现可能没有充分考虑到虚拟化环境下的特殊优化需求。

解决方案

经过深入排查，团队发现通过为ibv_reg_mr()函数添加IBV_ACCESS_RELAXED_ORDERING标志可以解决性能问题。这个标志的作用是：

允许RDMA操作以宽松的内存顺序执行
减少内存访问的同步开销
提高在虚拟化环境下的内存访问效率

经验总结

在虚拟化环境中开发高性能网络插件时，需要特别注意内存访问模式的优化
RDMA内存区域的注册标志对性能有显著影响，需要根据实际环境进行调优
GPU Direct RDMA的性能不仅取决于硬件配置，还与软件实现细节密切相关
不同内存分配方式可能带来完全不同的性能表现，需要在实际环境中充分测试

这个案例展示了在高性能计算领域，即使是看似简单的内存分配和注册操作，也可能对整体性能产生重大影响。开发者在实现自定义通信插件时，需要全面考虑硬件特性和软件优化的各个方面。

nccl

Optimized primitives for collective multi-GPU communication

项目地址：https://gitcode.com/gh_mirrors/nc/nccl

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

454

436

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

NCCL项目中GPU Direct RDMA性能问题的分析与解决

问题背景

现象描述

技术分析

GPU Direct RDMA机制

内存分配方式的影响

虚拟机环境特殊性

解决方案

经验总结

热门内容推荐

最新内容推荐

项目优选

NCCL项目中GPU Direct RDMA性能问题的分析与解决

问题背景

现象描述

技术分析

GPU Direct RDMA机制

内存分配方式的影响

虚拟机环境特殊性

解决方案

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选