NCCL项目中NVLS内存分配错误的排查与解决方案

2025-06-19 20:05:21作者：董斯意

Optimized primitives for collective multi-GPU communication

项目地址：https://gitcode.com/gh_mirrors/nc/nccl

问题现象

在使用NCCL测试套件对配备NVSwitch的H100 GPU进行测试时，系统报告了nvlsAllocateMem函数执行失败的错误。错误日志显示为"Cuda failure 1 'invalid argument'"，表明CUDA驱动程序拒绝了NVLS（NVLink共享）内存分配请求。

根本原因分析

经过深入排查，发现问题与NVIDIA Fabric Manager服务的操作顺序有关。当用户执行以下操作序列时会出现此问题：

启动nvidia-fabricmanager服务
停止nvidia-fabricmanager服务
再次启动nvidia-fabricmanager服务

在这种操作序列下，NCCL测试会报告上述错误。目前唯一的解决方法是重启整个系统。

技术背景

NVLS（NVLink Shared）是NVIDIA提供的一种通过NVLink实现GPU间内存共享的技术。NCCL利用这项技术来优化多GPU间的通信性能。Fabric Manager服务负责管理系统中的NVLink拓扑结构和相关资源。

解决方案

根据NVIDIA官方文档的建议，正确的操作流程应该是：

在停止Fabric Manager服务后，必须执行GPU重置操作
然后才能重新启动Fabric Manager服务
如果跳过GPU重置步骤直接重启服务，就会导致NVLS内存分配失败

这个要求与GPU架构和NVLink资源管理机制有关。Fabric Manager在停止时会释放对NVLink资源的控制，但这些资源的状态可能不会自动重置。直接重启服务会导致资源状态不一致，进而影响NVLS内存分配功能。

最佳实践建议

尽量避免在生产环境中频繁启停Fabric Manager服务
如果必须重启服务，请按照以下顺序操作：
- 停止Fabric Manager服务
- 执行GPU重置（可通过nvidia-smi命令实现）
- 重新启动Fabric Manager服务
考虑使用系统监控工具确保Fabric Manager服务持续运行
对于关键业务系统，建议配置服务监控和自动恢复机制

总结

NCCL与NVLink/NVLS的深度集成带来了显著的性能优势，但也引入了额外的系统管理要求。理解底层技术原理并遵循正确的操作流程，是确保系统稳定运行的关键。对于H100等新一代GPU架构，Fabric Manager服务的正确管理尤为重要。

Optimized primitives for collective multi-GPU communication

项目地址：https://gitcode.com/gh_mirrors/nc/nccl

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。