Lingua项目中的MMLU评估问题分析与修复

2025-06-12 18:09:49作者：虞亚竹Luna

在开源项目Lingua的评估过程中，研究人员发现了一个关于MMLU（大规模多任务语言理解）基准测试的重要问题。该问题导致0-shot MMLU评分始终保持在0.22945449366187154不变，且负对数似然值始终为0。

问题现象

评估数据显示，在处理MMLU测试题时，系统返回的负对数似然值全部为0。例如，在处理"Just war theory's principle of military necessity belongs to"这道题目时，所有选项的评估结果都显示为[[0.0, True]]。相比之下，其他基准测试如PIQA则表现正常，能够返回合理的负对数似然值。

根本原因分析

经过深入调查，发现问题出在评估脚本的token处理逻辑上。具体来说，在计算提示文本长度时，代码错误地包含了BOS（Beginning of Sequence）标记，导致后续索引计算出现偏差。

关键问题代码段位于eval.py文件中：

for p, ll, gr in zip(prompts, lls, greedy):
    p_len = len(self.generator.tokenizer.encode(p, add_bos=True, add_eos=False))
    results.append((ll[p_len:].sum().item(), gr[p_len:].all().item()))

当输出仅包含单个token时，这种索引错误会导致计算结果为空列表，进而导致评估结果异常。

技术细节

Token处理流程：
- 提示文本被编码为token序列时，默认添加了BOS标记
- 计算得到的p_len包含了BOS标记的长度
- 但在后续索引时，没有考虑BOS标记的偏移
影响范围：
- 主要影响输出token较少的评估任务（如MMLU的选择题）
- 对输出token较多的任务影响较小（如PIQA）
解决方案：
- 方案一：在索引计算时减去1（p_len -= 1）
- 方案二：在编码提示文本时不添加BOS标记（add_bos=False）