OpenCompass中自定义数据集评测得分异常问题解析
2025-06-08 18:35:31作者:尤辰城Agatha
在使用OpenCompass评估框架对讯飞API模型进行自定义数据集评测时,开发者可能会遇到一个典型问题:模型输出了正确答案,但最终得分却显示为0。这种情况通常与评测后处理(post-processing)环节的配置有关。
问题现象
当使用包含简单数学计算问题的JSONL格式自定义数据集(如test_question.jsonl)进行评测时,虽然模型输出了正确的计算结果,但OpenCompass的评估结果显示准确率为0。检查预测输出文件可以发现,模型实际上已经生成了正确答案,只是以特定格式呈现。
问题根源
该问题的核心在于OpenCompass默认的后处理机制无法正确解析模型的输出格式。讯飞API模型的响应通常包含解题过程和最终答案,而默认的评估器(如AccEvaluator)无法从这种复杂响应中提取出纯数字答案进行比对。
解决方案
要解决这个问题,需要为自定义数据集配置专门的预测后处理器(pred_postprocessor)。以下是具体实现步骤:
- 定义后处理函数:编写一个能够从模型响应中提取纯数字答案的函数
def math_postprocessor(text: str) -> str:
# 从模型响应中提取最后一个数字作为答案
import re
matches = re.findall(r'\d+', text)
return matches[-1] if matches else ""
- 配置数据集评估参数:在数据集配置中添加后处理设置
your_dataset_eval_cfg = dict(
evaluator=dict(type=AccEvaluator),
pred_role="BOT",
pred_postprocessor=dict(type=math_postprocessor),
)
- 确保数据类型一致:后处理器返回的答案类型必须与标注(gold)类型一致,本例中都是字符串形式的数字
技术原理
OpenCompass的评估流程包含三个关键步骤:
- 模型预测生成原始输出
- 后处理器提取关键信息
- 评估器比对提取结果与标准答案
当后处理器配置不当时,即使模型生成了正确答案,评估器也无法正确比对,导致得分异常。自定义后处理器可以精确控制信息提取逻辑,确保评估准确性。
最佳实践
对于复杂模型输出,建议:
- 先检查原始预测文件,确认模型实际输出内容
- 根据输出格式设计匹配的后处理逻辑
- 测试后处理器能否从样例输出中正确提取答案
- 在配置中明确指定后处理器
通过这种方式,开发者可以确保OpenCompass能够准确评估各种复杂格式的模型输出,获得真实的性能指标。
登录后查看全文
热门项目推荐
相关项目推荐
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C0135
let_datasetLET数据集 基于全尺寸人形机器人 Kuavo 4 Pro 采集,涵盖多场景、多类型操作的真实世界多任务数据。面向机器人操作、移动与交互任务,支持真实环境下的可扩展机器人学习00
mindquantumMindQuantum is a general software library supporting the development of applications for quantum computation.Python059
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
AgentCPM-ReportAgentCPM-Report是由THUNLP、中国人民大学RUCBM和ModelBest联合开发的开源大语言模型智能体。它基于MiniCPM4.1 80亿参数基座模型构建,接收用户指令作为输入,可自主生成长篇报告。Python00
最新内容推荐
【免费下载】 探索工业自动化之秘:一键解锁西门子PLC CPU密码工具【亲测免费】 轻松管理仓库:基于Qt的简易仓库管理系统【亲测免费】 轻松识别DLL和EXE文件位数:dumpbin.exe工具推荐【免费下载】 提升终端体验:SecureCRT配色方案导入指南【亲测免费】 VBA批量处理CSV及Excel文件数据【免费下载】 高效解析IEC通信规约报文:IEC8705解析工具【亲测免费】 基于PyTorch的VITS-BigVGAN中文TTS模型集成韵律预测【亲测免费】 探索极致用户体验:Vue3 实现淘宝商品详情页图片放大效果组件 CA310上位机软件:提升测试效率的利器 开源甘特图Gantt_Chart(C版本):提升项目管理效率的利器
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
502
3.65 K
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
11
1
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
66
20
暂无简介
Dart
749
180
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
23
0
React Native鸿蒙化仓库
JavaScript
298
347
一个高性能、可扩展、轻量、省心的仓颉应用开发框架。IoC,Rest,宏路由,Json,中间件,参数绑定与校验,文件上传下载,OAuth2,MCP......
Cangjie
116
21
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.3 K
722
无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
15
1