LLaMA-Factory项目中MiniCPM-V2_6模型DPO训练问题解析

2025-05-02 17:48:05作者：伍霜盼Ellen

问题背景

在LLaMA-Factory项目(0.9.2.dev0版本)中，用户在使用MiniCPM-V2_6模型进行带图的DPO(直接偏好优化)训练时遇到了一个关键错误。该错误表现为模型在训练过程中接收到了重复的input_ids参数，导致训练过程中断。

从错误堆栈中可以清晰地看到，问题发生在模型的前向传播过程中。具体错误信息显示："Qwen2ForCausalLM got multiple values for keyword argument 'input_ids'"，这表明模型在接收参数时，input_ids被多次传递。

错误发生在以下关键路径：

深入分析错误堆栈，我们可以发现几个关键点：

模型结构基于Qwen2ForCausalLM实现，包含标准的Transformer架构组件：
- 嵌入层(embed_tokens)
- 28层解码器(Qwen2DecoderLayer)
- 自注意力机制(Qwen2Attention)
- MLP层(Qwen2MLP)
- 层归一化(Qwen2RMSNorm)
- 旋转位置编码(Qwen2RotaryEmbedding)
问题可能源于：
- 模型包装层在处理输入时重复添加了input_ids
- DPO训练流程中的数据处理逻辑存在缺陷
- 模型的前向传播方法实现与DPO训练器的预期不匹配

根据用户反馈，该问题通过更新modeling文件得到解决。这表明：

对于使用LLaMA-Factory进行类似任务的开发者，建议：

这个问题展示了在复杂训练框架中，模型实现与训练流程配合的重要性。通过及时更新相关组件，可以有效避免这类参数传递冲突问题，确保训练流程的顺利进行。这也提醒开发者在使用开源框架时，要关注组件版本间的兼容性问题。

登录后查看全文