EleutherAI/lm-evaluation-harness项目中MGSM中文任务格式问题分析

2025-05-26 04:54:28作者：董斯意

在自然语言处理领域，多语言数学推理任务一直是评估模型能力的重要基准。EleutherAI开源的lm-evaluation-harness项目中包含了一个重要的多语言数学推理基准MGSM（Multilingual Grade School Math）。近期，项目维护者发现其中中文版本存在一个关键性的格式问题，这个问题虽然看似微小，但对模型评估结果产生了显著影响。

MGSM中文任务在few-shot学习场景下出现了格式不一致的问题。具体表现为：few-shot示例中的问题提示符使用中文冒号"问题："，而实际查询时却使用英文冒号"问题:"。这种差异导致模型在生成答案后，可能会继续生成新的问题而不是停止，从而影响评估结果的准确性。

问题的根源在于数据处理流程的不一致。项目中的doc_to_text函数在处理查询时会将原始问题提示符替换为"问题:"（英文冒号），并设置为generate_until参数的一部分。然而，few-shot示例直接从原始数据集中获取，保留了中文冒号"问题："的格式。这种细微差别对模型行为产生了意想不到的影响。

当基础模型遇到这种格式不一致的情况时，可能会在正确生成答案后，继续以中文冒号格式"问题："生成新的问题。由于generate_until参数只设置了英文冒号"问题:"作为停止条件，模型生成的内容无法被正确截断，导致评估结果出现偏差。

这个问题不仅存在于MGSM中文任务中，日语版本也存在类似情况。解决方案相对简单：统一使用中文冒号格式。项目维护者已经提交了修复代码，修改了utils.py文件中的相关部分，确保few-shot示例和查询使用相同的格式。

这个案例给我们带来了一些重要启示：