XTuner多卡训练中的常见问题与解决方案

2025-06-13 20:41:48作者：霍妲思

多卡训练报错分析

在使用XTuner进行多卡训练时，开发者可能会遇到类似"RuntimeError: Expected all tensors to be on the same device"的错误。这种情况通常发生在尝试使用多GPU进行模型微调时，而单卡训练却能正常运行。

经过分析，这类问题往往与DeepSpeed的配置有关。XTuner框架在底层使用了DeepSpeed来优化多GPU训练，因此需要确保DeepSpeed的正确安装和配置。

要解决多卡训练的问题，可以按照以下步骤操作：

pip install deepspeed==0.14.0

NPROC_PER_NODE=2 xtuner train config_file.py --deepspeed deepspeed_zero2

其中，deepspeed_zero2是一种内存优化策略，也可以尝试使用deepspeed_zero1，具体选择取决于硬件配置和模型大小。

在实际训练过程中，开发者可能会发现虽然loss值在下降，但模型似乎没有学到预期的知识。这种情况通常与以下几个训练参数有关：

accumulative_counts：这个参数控制梯度累积的步数，设置过大会导致参数更新频率降低，影响学习效果。建议根据实际情况调整，一般可以从较小的值开始尝试。
batch_size和max_length：这两个参数直接影响每次训练的数据量。虽然增大这些值理论上可以提高训练效率，但需要与GPU显存容量相匹配。过大的值可能导致模型无法有效学习。
prompt_template：对于chat模型，使用正确的prompt模板非常重要。InternLM2 chat模型应使用PROMPT_TEMPLATE.internlm2_chat模板。