LLaMA-Factory项目中Qwen2.5-VL模型训练时的数据类型错误分析与解决方案

2025-05-02 02:00:42作者：凌朦慧Richard

在LLaMA-Factory项目中使用Qwen2.5-VL-7B-Instruct模型进行全参数微调训练时，开发者可能会遇到一个与数据类型相关的错误。这个错误的核心表现为模型在计算旋转位置编码时，输入张量和余弦/正弦参数的数据类型不匹配，具体错误信息显示"Input and cos/sin must have the same dtype, got torch.float32 and torch.bfloat16"。

该问题的技术背景在于Qwen2.5-VL模型的视觉编码器部分使用了Flash Attention的旋转位置编码实现。在计算过程中，模型期望输入张量和旋转位置编码参数保持相同的数据类型，但在实际运行中却出现了float32和bfloat16的混用情况。

经过技术分析，这个问题源于Hugging Face Transformers库中的一个实现缺陷。在Transformers的早期版本中，Qwen2.5-VL模型的视觉编码器没有正确处理混合精度训练时的数据类型转换。具体来说，当使用bfloat16精度进行训练时，视觉编码器的某些层未能正确保持数据类型一致性。

解决方案需要更新到包含修复补丁的Transformers版本。值得注意的是，虽然Transformers的v4.49.0正式版本尚未包含这个修复，但开发者可以通过直接从GitHub主分支安装来获取修复后的代码。这个修复主要确保视觉编码器在混合精度训练时能正确处理数据类型转换，保持计算过程中各张量的数据类型一致性。

对于遇到此问题的开发者，建议采取以下步骤解决：

卸载当前安装的Transformers版本
直接从GitHub安装最新主分支代码
重新启动训练过程

这个案例也提醒我们，在使用大型多模态模型进行训练时，需要特别注意不同组件间的数据类型兼容性，特别是在启用混合精度训练的情况下。视觉编码器和语言模型部分可能对数据类型有不同的要求和处理方式，这需要在模型实现层面进行仔细的统一和测试。

作为最佳实践，当使用LLaMA-Factory这类高级训练框架时，建议开发者：

密切关注上游模型库的更新和问题修复
在启用混合精度训练前，检查各组件的数据类型处理逻辑
对于多模态模型，特别注意视觉和语言部分的接口兼容性
在正式训练前进行小规模测试，验证数据类型转换的正确性

登录后查看全文

LLaMA-Factory项目中Qwen2.5-VL模型训练时的数据类型错误分析与解决方案

项目优选