Axolotl项目中DeepSpeed Zero3训练时的设备一致性错误分析与解决方案

2025-05-25 18:50:08作者：吴年前Myrtle

Axolotl是您优化AI模型训练流程的得力助手，支持包括Llama、Pythia等在内的多种Hugging Face模型。通过精细调整、LoRA、QLoRA等技术，它赋予用户强大的定制能力，无论是初学者还是专家都能轻松上手。借助简单的YAML配置或命令行覆盖，您可灵活控制训练过程。无论单GPU还是多GPU环境，甚至是FSDP和Deepspeed加速下的分布式计算，Axolotl都游刃有余。结合Docker容器化部署与云平台一键启动，让模型训练不再受地域限制。详尽的日志记录与WandB、MLflow集成，确保实验追踪无忧。涵盖了广泛的模型架构支持，Axolotl是加速您的AI研究和应用开发的不二之选。快来体验，解锁AI模型调优的新境界！

项目地址：https://gitcode.com/GitHub_Trending/ax/axolotl

问题背景

在使用Axolotl项目进行大模型训练时，当配置DeepSpeed Zero3优化策略时，用户可能会遇到一个常见的运行时错误："Expected all tensors to be on the same device, but found at least two devices"。这个错误表明在训练过程中，系统检测到了张量被分散在不同的设备上（通常是CUDA设备和CPU之间），而DeepSpeed要求所有参与计算的张量必须位于同一设备上。

错误现象分析

该错误通常发生在梯度计算和参数更新阶段，具体表现为：

在DeepSpeed的stage3.py文件中，当尝试执行unscale_and_clip_grads操作时
系统发现fp32_partitioned_groups_flat中的张量位于CPU上
而其他参与计算的张量位于CUDA设备上
导致无法执行mul_操作

根本原因

经过深入分析，这个问题主要源于DeepSpeed库中的一个已知问题。在DeepSpeed的Zero3优化策略实现中，当同时启用CPU offload和混合精度训练时，可能会出现设备不一致的情况。具体来说：

梯度计算可能在GPU上完成
但参数更新时部分张量被错误地保留在CPU上
DeepSpeed内部对设备一致性的检查机制触发了这个错误

解决方案

针对这个问题，我们推荐以下几种解决方案：

方案一：使用特定版本的DeepSpeed

卸载当前安装的DeepSpeed：pip uninstall deepspeed
安装修复了该问题的特定版本：pip install "deepspeed@git+https://github.com/microsoft/DeepSpeed.git@bc48371c5e1fb8fd70fc79285e66201dbb65679b"