NCCL2.26.2中RAS初始化阶段导致进程崩溃的问题分析

2025-06-19 10:55:48作者：沈韬淼Beryl

Optimized primitives for collective multi-GPU communication

项目地址：https://gitcode.com/gh_mirrors/nc/nccl

问题背景

在NCCL（NVIDIA Collective Communications Library）2.26.2版本中，用户报告了一个关于RAS（Reliable, Available, and Scalable）功能的重要问题。当在NCCL初始化阶段执行RAS命令时，可能会导致NCCL进程崩溃。这个问题在分布式训练场景中尤为关键，因为它可能影响多机多卡训练的正常进行。

问题现象

用户在使用两个主机运行NCCL all-to-all测试时发现，如果在NCCL初始化阶段执行RAS命令，会导致NCCL进程崩溃。从错误日志中可以看到，进程收到了段错误信号(SIGSEGV)，并且错误地址指向0x10，这表明程序尝试访问了一个空指针或无效内存地址。

技术分析

通过对问题的深入分析，NCCL开发团队发现这是一个在2.26版本引入的新bug。问题的核心在于RAS客户端在NCCL初始化阶段尝试访问尚未完全初始化的通信数据结构。

具体来说，当RAS命令在初始化阶段被调用时，它会尝试访问ncclComm结构体中的peerInfo字段，而此时这个字段可能尚未被完全初始化。这导致了空指针解引用，进而引发段错误。

解决方案

NCCL开发团队提供了一个临时修复方案，主要修改包括：

在comm.h中增加了一个新的标志位peerInfoValid，用于标识peerInfo字段是否已经有效初始化
在init.cc中，当peerInfo完成初始化后，通过原子操作设置peerInfoValid标志
在ras/collectives.cc中，在访问peerInfo前检查peerInfoValid标志，确保数据已准备好

这个修复方案通过引入一个同步标志，确保了RAS客户端不会在数据结构未完全初始化时就尝试访问它们，从而避免了潜在的竞争条件和空指针访问问题。

影响与建议

这个问题主要影响使用NCCL 2.26版本并在初始化阶段执行RAS操作的用户。对于生产环境，建议：

如果使用NCCL 2.26版本，应考虑应用上述修复补丁
或者升级到包含正式修复的后续版本（如2.28及以上）
在初始化阶段避免执行RAS相关操作

总结

这个案例展示了在分布式通信库开发中，初始化顺序和并发访问控制的重要性。NCCL团队通过引入原子标志位的方式，优雅地解决了这个竞态条件问题，确保了库的稳定性和可靠性。对于深度学习工程师和系统管理员来说，理解这类问题的本质有助于更好地诊断和解决实际部署中遇到的类似问题。

Optimized primitives for collective multi-GPU communication

项目地址：https://gitcode.com/gh_mirrors/nc/nccl

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。