QwenLM/Qwen3全量微调中的重复输出问题分析与解决

2025-05-11 01:01:53作者：廉彬冶Miranda

问题背景

在使用QwenLM/Qwen3项目进行全量微调(full fine-tuning)时，部分用户遇到了模型推理时输出结果不断重复的问题，直到达到max_new_tokens设定的最大长度限制。这种现象通常表明模型在生成过程中无法正确识别终止条件，导致生成过程无法正常结束。

用户报告的主要症状包括：

模型推理时输出内容不断重复
生成过程持续到max_new_tokens设定的最大长度
控制台出现警告信息：
- "Special tokens have been added in the vocabulary..."
- "The attention mask and the pad token id were not set..."
- "Setting pad_token_id to eos_token_id..."

经过技术分析，这个问题主要由以下几个因素导致：

终止标记配置不当：在微调基础模型时，终止标记(EOS token)的配置不正确。Qwen系列模型通常使用<|im_end|>(token id 151645)作为终止标记，而非默认的<|endoftext|>(token id 151643)。
注意力掩码问题：由于pad token和eos token被设置为相同值，导致模型无法正确区分填充位置和终止位置，从而影响生成过程的终止判断。
特殊词嵌入未微调：警告信息表明特殊token的词嵌入可能没有经过充分微调，导致模型对这些关键标记的理解不准确。

针对上述问题，可以采取以下解决措施：

修改模型配置文件：
- 在config.json和generation_config.json中明确设置eos_token为<|im_end|>
- 将eos_token_id设置为151645
确保数据预处理正确：
- 检查数据预处理过程中是否正确处理了特殊标记
- 确认输入数据中的终止标记与模型配置一致
验证微调过程：
- 检查微调过程中是否包含了所有特殊token的词嵌入更新
- 确保模型完整学习了终止标记的含义

对于使用QwenLM/Qwen3进行全量微调的用户，建议：

QwenLM/Qwen3项目中的重复输出问题通常源于终止标记配置不当或数据预处理不完整。通过正确配置模型参数和确保数据处理流程的准确性，可以有效解决这一问题。对于深度学习模型微调，特别是大型语言模型，细节配置的正确性往往对最终效果有着决定性影响。

登录后查看全文