LM-Evaluation-Harness中MMLU-Pro任务的Few-shot配置优化

2025-05-26 18:39:55作者：羿妍玫Ivan

在语言模型评估框架LM-Evaluation-Harness中，MMLU-Pro任务的Few-shot配置存在一个值得注意的技术细节。本文将从技术实现角度分析问题本质，并提出优化方案。

问题背景

MMLU-Pro是一个包含多领域多项选择题的评估数据集，其特色在于提供了思维链(COT)内容。在Few-shot学习场景下，当前实现存在配置未被正确使用的问题。

技术分析

原始实现中，Few-shot配置中的doc_to_text函数未被实际调用，导致Few-shot上下文生成时无法正确利用COT内容。具体表现为：

配置文件中虽然定义了doc_to_text函数指向utils.fewshot_to_text
但在实际生成Few-shot示例时，该配置未被有效应用
结果导致Few-shot示例无法展示期望的思维链推理过程

优化方案

我们提出以下技术改进方案：

重构数据处理流程：在process_docs阶段对数据集进行预处理
COT内容映射：将cot_content字段内容映射到answer字段
标准化提示格式：定义统一的提示模板，确保问题、选项和思维链引导词的正确组合

关键实现代码如下：

def doc_to_text(example):
    prompt = "Question:\n"
    question = example["question"]
    options = example["options"]
    prompt += question + "\n"
    prompt += "Options:\n"
    for i, opt in enumerate(options):
        prompt += "{}. {}\n".format(choices[i], opt)
    prompt += "Answer: Let's think step by step."
    return prompt

def cot_as_answer(example):
    if example['cot_content'] != "":
        example['answer'] = example['cot_content'].replace("A: Let's think step by step. ","")
    return example

def process_docs(dataset, subject):
    dataset = dataset.filter(lambda x: x["category"] == subject)
    return dataset.map(cot_as_answer)