OpenCompass评测工具中MMLU和C-Eval数据集题目数量差异解析

2025-06-08 04:28:43作者：郁楠烈Hubert

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

在OpenCompass评测工具的使用过程中，许多用户发现MMLU和C-Eval数据集的题目数量与原始数据集存在差异，这引起了关于评测结果准确性的疑问。本文将深入分析这一现象的技术原因，帮助用户正确理解评测过程中的数据处理逻辑。

MMLU数据集题目数量差异

OpenCompass在评测MMLU数据集时，college_chemistry子集显示只有100道题目，而用户从原始数据集中解压后发现共有116道题目。这一差异并非数据处理错误，而是由于：

原始MMLU数据集中部分题目是跨行存储的，在评测处理过程中被合并为单条记录
根据权威评测框架的统计，college_chemistry子集确实应为100道有效题目
这种处理方式与主流评测框架保持一致，确保了评测结果的可比性

C-Eval数据集题目数量差异

对于C-Eval数据集，用户观察到更大的题目数量差异，例如college_chemistry子集评测日志中只有24道题，而原始test目录下却有224道题。这一现象的原因是：

OpenCompass默认使用C-Eval的验证集(val)而非测试集(test)进行评测
验证集题目数量远少于测试集，这是为了平衡评测效率和结果可靠性
这种设计符合机器学习领域常见的训练/验证/测试集划分原则

评测模式配置建议

关于评测模式的选择，OpenCompass默认使用5-shot评测，但用户可以根据需求调整为0-shot模式：

通过修改评测配置文件可以切换为0-shot模式
0-shot模式更适合评估模型的基础能力而非上下文学习能力
不同shot设置下的评测结果不具备直接可比性

评测进度显示说明

在评测过程中，进度条显示的数字(如445)可能引起困惑。这实际上是：

当前正在运行的子任务的进度指示
不代表整体评测的进度或题目总数
由于评测任务的并行化处理，多个子任务会同时进行

评测结果可比性说明

用户关心的评测结果可比性问题，OpenCompass通过以下方式确保：

严格遵循各数据集的官方评测标准
题目筛选和处理方法与主流框架保持一致
不同配置下的评测结果会明确标注条件差异

通过理解这些技术细节，用户可以更准确地解读OpenCompass的评测结果，并在不同场景下选择合适的评测配置。

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库