VLMEvalKit项目中MathVista评测指标解析

2025-07-03 09:21:58作者：沈韬淼Beryl

在开源项目VLMEvalKit中，MathVista作为一个重要的视觉语言多模态评测基准，其评分机制需要特别关注。本文将从技术角度深入解析该评测指标的具体含义和计算方法。

评分输出格式解析

当运行MathVista评测时，系统会输出类似如下的结果：

0  Overall                      1000  687  584  68.7     58.4

这行输出包含多个关键指标：

样本总数：1000（表示评测数据集的总样本量）
prefetch数量：687
hit数量：584
prefetch率：68.7%
准确率(acc)：58.4%

核心概念解析

prefetch机制

prefetch指标表示预测结果能够通过规则匹配与标准答案（开放式问题）或选项之一（多选题）相匹配的情况。需要注意的是：

对于多选题(MCQ)，prefetch匹配仅表示预测与某个选项形式上匹配，并不保证内容正确
该机制采用基于规则的字符串匹配方法

hit机制

hit指标表示预测结果被判定为正确的样本数，其判定逻辑为：

首先尝试通过prefetch机制匹配
当prefetch匹配失败时，会调用GPT等大型语言模型进行语义级判断
最终由GPT判定预测是否正确

关键指标说明

在实际应用中，开发者应重点关注以下指标：

准确率(acc)：这是最核心的评测指标，表示模型在测试集上的整体正确率
prefetch率：反映模型预测结果与标准答案/选项的表面匹配程度
hit率：反映模型的实际正确预测能力

技术实现建议

对于希望使用VLMEvalKit进行模型评测的研究者，建议：

优先关注acc指标作为模型性能的主要评判标准
理解prefetch和hit的区别，避免误读中间指标
对于重要实验，建议同时记录prefetch和hit数据，以便分析模型错误类型
注意多选题和开放式问题的评判机制差异

项目团队表示未来会优化输出格式，使评测结果更加清晰易懂。当前版本中，开发者只需关注acc指标即可获得模型的准确性能评估。

VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

987

251