XTuner微调过程中评估样例循环问题的分析与解决

2025-06-13 00:57:22作者：丁柯新Fawn

问题背景

在使用XTuner对InternLM2-chat-1.8B模型进行微调时，开发人员发现了一个值得关注的现象：在训练过程中的阶段性评估环节，模型生成的回答容易出现循环重复的问题。这种现象在菜谱生成等结构化文本输出任务中尤为明显。

现象描述

在微调过程中，开发人员设置了每500次迭代进行一次评估，评估输入包括"酸菜鱼怎么做"、"过桥米线怎么做"等菜谱生成请求。观察发现：

前500次迭代评估时，模型能生成相对正常的回答
501-1000次迭代后，评估输出开始出现明显的循环重复现象
到6000次迭代左右，循环问题变得更加严重

有趣的是，当使用xtuner chat命令手动测试时，如果设置了重复惩罚(repetition penalty)参数，模型仍然能够生成正常的回答。这表明循环问题可能与评估时的生成参数设置有关。

问题分析

经过深入分析，发现循环重复问题主要由以下因素导致：

评估时缺乏重复惩罚机制：XTuner默认的EvaluateChatHook在评估时没有设置重复惩罚参数(repetition_penalty)，该参数默认为1，意味着对重复内容没有任何惩罚。
结构化文本的固有特性：菜谱等结构化文本本身具有较高的重复性，如步骤编号、常用烹饪动词等，这使得模型更容易陷入重复循环。
微调数据的影响：如果微调数据中存在某些模式或重复结构，模型可能会过度学习这些模式，导致生成时倾向于重复。

解决方案

XTuner团队已经通过PR#501提供了解决方案，允许在评估时自定义生成参数。具体实现方式如下：

修改评估配置：在config文件中，可以为EvaluateChatHook添加generation_kwargs参数，设置包括max_new_tokens、repetition_penalty等在内的各种生成参数。
示例配置修改：

custom_hooks = [
    dict(type=DatasetInfoHook, tokenizer=tokenizer),
    dict(
        type=EvaluateChatHook,
        tokenizer=tokenizer,
        generation_kwargs={'repetition_penalty': 1.5, 'max_new_tokens': 512},
        every_n_iters=evaluation_freq,
        evaluation_inputs=evaluation_inputs,
        system=SYSTEM,
        prompt_template=prompt_template)
]