LM-Evaluation-Harness项目中BBH与GPQA数据集总分计算方法解析

2025-05-26 16:36:27作者：庞眉杨Will

lm-evaluation-harness

A framework for few-shot evaluation of autoregressive language models.

项目地址：https://gitcode.com/GitHub_Trending/lm/lm-evaluation-harness

在开源项目LM-Evaluation-Harness中，BBH(BIG-Bench Hard)和GPQA(Graduate-Level Google-Proof Q&A)是两个重要的多任务评估数据集。这两个数据集都由多个子任务组成，但在Open-LLM-Leaderboard上展示的是模型在这两个数据集上的总体得分。

总分计算原理

根据项目维护者的说明，这两个数据集的总体得分采用的是**宏平均(macro-average)**的计算方法。具体而言：

首先计算模型在每个子任务上的准确率
然后将所有子任务的准确率进行简单平均
最后对多选题目进行重新标度，使得随机猜测(如25%准确率)对应的得分为0

技术细节解析

宏平均方法的特点是每个子任务对最终得分的贡献权重相同，不论各子任务的样本量大小。这种方法适用于评估模型在不同类型任务上的整体表现，避免了样本量大的子任务主导总体得分的情况。

对于包含多项选择题的子任务，项目采用了重新标度的处理方式。例如，对于一个四选一的选择题，随机猜测的准确率是25%，经过重新标度后，这个基准值会被映射为0分，高于随机猜测的表现会得到正分，低于随机猜测则得到负分。

实际应用意义

这种计算方法确保了：

不同规模的子任务具有同等重要性
得分能够真实反映模型超越随机猜测的能力
评估结果更具可比性和解释性

理解这一计算机制对于正确解读Open-LLM-Leaderboard上的模型表现至关重要，特别是当研究人员需要比较不同模型在BBH和GPQA数据集上的性能时。

lm-evaluation-harness

A framework for few-shot evaluation of autoregressive language models.

项目地址：https://gitcode.com/GitHub_Trending/lm/lm-evaluation-harness

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

cangjie_runtime

仓颉编程语言运行时与标准库。