MMDetection分布式训练中NCCL网络路径问题的分析与解决

2025-05-04 12:52:40作者：邬祺芯Juliet

OpenMMLab Detection Toolbox and Benchmark

项目地址：https://gitcode.com/gh_mirrors/mm/mmdetection

问题背景

在使用MMDetection 2.x版本进行分布式训练时，当配置4台机器、每台8块NVIDIA A100 GPU的环境时，训练过程会在初始化阶段挂起，并出现"NCCL WARN Could not find a path for pattern 4"的警告信息。这个问题特别容易在AWS SageMaker的p4d实例上出现，因为这类实例使用了特殊的EFA(Elastic Fabric Adapter)网络技术。

环境配置分析

从日志中可以看到关键的环境信息：

PyTorch版本：1.9.1
CUDA版本：11.1
NCCL版本：2.7.8+cuda11.1
硬件配置：NVIDIA A100-SXM4-40GB GPU
操作系统：Ubuntu 20.04

问题现象

训练初始化阶段，NCCL会尝试为通信模式4(pattern 4)寻找最优的网络路径，但当无法找到时，会回退到简单顺序模式。虽然这是一个警告而非错误，但训练过程会在此处挂起，无法继续执行。

根本原因

经过深入分析，这个问题实际上与AWS安全组(Security Group)的配置有关。p4d实例使用EFA(Elastic Fabric Adapter)进行节点间高速通信，这需要特定的网络权限：

安全组规则不足：默认的安全组配置通常只允许IPv4的0.0.0.0/0出站流量，而EFA需要安全组内部的全流量权限
NCCL通信模式：NCCL尝试使用更高效的通信模式(pattern 4)时，由于网络限制无法建立连接
回退机制失效：虽然NCCL尝试回退到简单顺序模式，但网络限制仍然阻止了通信的建立

解决方案

要解决这个问题，需要正确配置AWS安全组规则：

添加入站规则：
- 协议：全部
- 源：选择当前安全组ID
- 端口范围：全部
添加出站规则：
- 协议：全部
- 目标：选择当前安全组ID
- 端口范围：全部
验证配置：
- 确保规则应用于所有参与训练的实例
- 检查规则优先级，确保新规则不会被其他规则覆盖

额外建议

升级软件版本：较新版本的PyTorch和MMDetection会提供更明确的错误信息，有助于更快定位问题
网络测试：在正式训练前，建议先运行小规模的NCCL测试，验证节点间通信是否正常
监控工具：使用AWS提供的EFA监控工具，确保网络适配器正常工作

总结

分布式训练中的网络问题往往表现为训练挂起或性能下降，特别是在使用特殊硬件如p4d实例时。正确配置安全组规则是确保EFA和NCCL正常工作的关键。通过理解NCCL的通信模式和AWS网络架构，可以有效预防和解决这类问题，确保大规模分布式训练的顺利进行。

OpenMMLab Detection Toolbox and Benchmark

项目地址：https://gitcode.com/gh_mirrors/mm/mmdetection

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。