QwenLM/Qwen项目单机多卡微调1.8B模型卡住问题分析与解决方案

2025-05-12 08:40:14作者：庞眉杨Will

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen

问题背景

在使用QwenLM/Qwen项目进行1.8B参数模型的微调时，用户遇到了单机多卡训练初始化阶段卡住的问题。具体表现为运行finetune_lora_ds.sh脚本后，程序在分布式初始化阶段停滞不前，最终出现"Socket Timeout"错误。

问题现象分析

当用户尝试在单台配备8块NVIDIA 4090显卡的服务器上运行微调脚本时，程序在初始化阶段就出现了停滞。从日志中可以看到，系统首先发出了关于OMP_NUM_THREADS的警告信息，随后便不再有任何输出。经过长时间等待后，最终抛出RuntimeError: Socket Timeout错误。

根本原因

经过深入分析，这个问题主要由以下几个因素导致：

分布式配置错误：用户脚本中设置的NNODES=3与实际单机环境不符，导致多节点通信初始化失败。
NCCL通信问题：在某些硬件环境下，NCCL的P2P通信可能会出现问题，导致多卡之间的通信失败。
CUDA设备可见性：未明确指定使用的GPU设备，可能导致设备分配混乱。

解决方案

针对上述问题，我们推荐以下解决方案：

调整分布式配置参数：
- 将NNODES设置为1（单机环境）
- 正确设置GPUS_PER_NODE为实际使用的显卡数量
优化NCCL通信设置：
- 在极端情况下，可以临时使用NCCL_P2P_DISABLE="1"和NCCL_IB_DISABLE="1"来禁用特定的通信方式
- 注意：这可能会影响训练性能，仅作为临时解决方案
明确指定GPU设备：
- 使用CUDA_VISIBLE_DEVICES环境变量明确指定要使用的GPU设备编号
- 例如：CUDA_VISIBLE_DEVICES=0,1,2,3

最佳实践建议

为了避免类似问题，我们建议用户在配置多卡训练时：

确保分布式配置与实际硬件环境匹配
在脚本中添加调试信息，如打印分布式配置参数
逐步增加显卡数量进行测试，而不是一开始就使用全部显卡
监控NCCL通信状态，及时发现潜在的通信问题

性能优化提示

虽然禁用NCCL的某些功能可以解决初始化问题，但这会影响训练性能。对于追求最佳性能的用户，我们建议：

检查NCCL版本是否与CUDA版本兼容
确保服务器硬件（如网卡）支持高效的GPU间通信
考虑使用更高效的通信后端（如在某些环境下，Gloo可能比NCCL更稳定）

通过以上措施，用户应该能够顺利地在单机多卡环境下进行Qwen-1.8B模型的微调工作。

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen

登录后查看全文

最新内容推荐

VSdebugChkMatch.exe：专业PDB签名匹配工具全面解析与使用指南 Solidcam后处理文件下载与使用完全指南：提升CNC编程效率的必备资源中兴e读zedx.zed文档阅读器V4.11轻量版：专业通信设备文档阅读解决方案深入解析Windows内核模式驱动管理器：系统驱动管理的终极利器 PhysioNet医学研究数据库：临床数据分析与生物信号处理的权威资源指南 STM32到GD32项目移植完全指南：从兼容性到实战技巧 Python开发者的macOS终极指南：VSCode安装配置全攻略 PCDViewer-4.9.0-Ubuntu20.04：专业点云可视化与编辑工具全面解析基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器昆仑通态MCGS与台达VFD-M变频器通讯程序详解：工业自动化控制完美解决方案

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。