OpenCompass/VLMEvalKit评测框架中的关键问题解析

2025-07-03 08:38:14作者：舒璇辛Bertina

Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

评测数据集使用情况分析

在OpenCompass/VLMEvalKit评测框架中，MMMU数据集的使用方式引起了开发者关注。经过确认，该框架在MMMU评测中仅使用了验证集(Val)，而没有使用开发集(Dev)。这一设计选择对于研究者复现结果具有重要意义，因为不同数据子集的使用会直接影响模型的最终评测分数。

推理方法的选择与验证

关于思维链(COT)方法的使用，评测框架在MMMU数据集上明确采用了非COT的评测方式。这一决策背后可能有以下技术考量：

保持评测方法的简洁性和一致性
避免COT提示对特定模型产生偏向性影响
确保不同模型间的公平比较

值得注意的是，InternVL模型在评测中确实使用了COT方法，这体现在其自定义提示模板中包含了特定的推理指令。这种差异化的处理方式需要研究者在复现结果时特别注意。

评测结果差异的技术分析

OCRBench评测中出现的分数差异问题揭示了几个关键技术点：

模型版本影响：GPT4o_0513模型在不同评测环境下表现差异显著，这促使评测团队重新验证并更新了结果
分辨率设置：特别是对于Qwen2.5-VL-3B等视觉语言模型，输入图像的分辨率设置对OCR性能有重大影响。测试表明，将分辨率调整到10×10至28×28像素范围可以显著提升模型表现
评测配置一致性：不同硬件环境(nproc-per-node设置)下的评测结果可能存在差异，这要求研究者在复现时保持环境配置一致

实践建议

基于这些发现，我们建议研究者在进行模型评测时：

仔细检查评测框架的默认配置
对于视觉任务，特别注意图像预处理参数
记录完整的评测环境信息以便结果复现
关注评测框架的更新日志，及时获取评测方法的调整信息

这些实践将有助于获得更加可靠和可复现的模型评测结果。

Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统