Axolotl项目中FSDP与QLoRA训练时的评估阶段卡顿问题分析

2025-05-25 15:34:04作者：袁立春Spencer

在Axolotl项目中使用FSDP（完全分片数据并行）结合QLoRA（量化低秩适配）进行模型微调时，用户报告了一个关键问题：训练过程在完成第一个epoch后，在评估阶段会出现长时间卡顿现象。这个问题在多个不同配置的测试环境中都能复现，特别是在使用自定义评估指标时更为明显。

问题现象

当用户尝试使用2块RTX 4090显卡，基于Llama-3.2-1B模型进行QLoRA微调时，训练过程本身运行正常，但在第一个epoch结束后进入评估阶段时，系统会陷入长时间停滞状态。日志显示评估损失为NaN，同时伴随一个关键警告信息：输入张量位于CUDA设备而模型却位于CPU设备，这会导致生成过程变慢或出现意外行为。

技术分析

深入分析这个问题，我们可以发现几个关键点：

设备不匹配问题：评估阶段出现模型与输入数据设备不匹配的情况（模型在CPU而输入在GPU），这会导致性能严重下降。这种不匹配在FSDP配置下尤为明显。
FSDP特定行为：即使用户尝试调整fsdp_cpu_ram_efficient_loading和fsdp_offload_params等参数，问题依然存在，这表明这是FSDP实现层面的一个更深层次问题。
评估阶段特殊性：问题主要出现在评估阶段而非训练阶段，说明FSDP在模型前向传播和反向传播时的行为与生成式评估时的行为存在差异。

解决方案

针对这个问题，目前有几个可行的解决方案：

临时解决方案：切换到DeepSpeed的Zero-1或Zero-2配置可以避免这个问题，且DeepSpeed同样支持QLoRA训练。不过需要注意，DeepSpeed的Zero-3配置目前与PEFT模型存在兼容性问题。
代码修复：项目维护者已经提出了一个修复PR，尝试解决FSDP在评估阶段的设备管理问题。这个修复需要用户自行测试验证效果。
参数调整：虽然单独调整fsdp_cpu_ram_efficient_loading参数不能完全解决问题，但结合其他FSDP参数的优化可能改善评估性能。