QwenLM/Qwen3项目中多GPU训练时的设备一致性错误分析与解决方案

2025-05-12 21:09:35作者：毕习沙Eudora

问题背景

在使用Qwen2.5-7B-Instruct模型进行多GPU训练时，用户报告了一个与设备一致性相关的运行时错误。该问题在使用transformers库4.46.2版本时出现，表现为训练过程中出现"Expected all tensors to be on the same device"的错误提示。

错误现象分析

错误日志显示，在计算交叉熵损失时，系统检测到张量分布在不同的GPU设备上（cuda:1和cuda:0）。具体发生在损失计算阶段，当执行loss = loss / num_items_in_batch这一操作时，系统无法自动处理不同设备间的张量运算。

根本原因

经过技术分析，该问题源于transformers库4.46.0版本后对损失函数实现的重大重构。在新版本中：

损失计算被分离到专门的工具模块(loss_utils.py)
批处理项数(num_items_in_batch)作为Python标量而非张量参与运算
在多GPU环境下，系统未能正确处理设备间的数据同步

解决方案

针对这一问题，我们提供两种解决方案：

临时解决方案

直接修改transformers库源代码：

定位到loss_utils.py文件中的fixed_cross_entropy函数
将原代码loss = loss / num_items_in_batch
修改为loss = loss / torch.tensor(num_items_in_batch, device=loss.device)

这一修改确保除数张量与损失张量位于同一设备上。

推荐解决方案

降级transformers库版本至4.45.0：

pip install transformers==4.45.0

此版本尚未引入损失函数重构，可以避免设备一致性问题的出现。

技术建议

对于深度学习多GPU训练，设备一致性是常见挑战。开发者在编写跨设备代码时应注意：

所有参与运算的张量应显式指定设备
标量值参与张量运算时应先转换为张量
使用.to(device)方法确保数据位于正确设备
在混合精度训练中特别注意数据类型和设备的一致性

后续维护

建议关注transformers库的后续更新，官方可能会修复这一设备同步问题。同时，在升级深度学习框架时，应充分测试多GPU场景下的兼容性。

对于Qwen系列模型的用户，在遇到类似问题时，可先检查transformers库版本，并考虑使用更稳定的旧版本作为临时解决方案。

登录后查看全文

最新内容推荐

电脑PC网易云音乐免安装皮肤插件使用指南：个性化音乐播放体验开源电子设计自动化利器：KiCad EDA全方位使用指南 Jetson TX2开发板官方资源完全指南：从入门到精通昆仑通态MCGS与台达VFD-M变频器通讯程序详解：工业自动化控制完美解决方案基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器 PhysioNet医学研究数据库：临床数据分析与生物信号处理的权威资源指南 QT连接阿里云MySQL数据库完整指南：从环境配置到问题解决 Python案例资源下载 - 从入门到精通的完整项目代码合集 2022美赛A题优秀论文深度解析：自行车功率分配建模的成功方法 TJSONObject完整解析教程：Delphi开发者必备的JSON处理指南

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。