VLMEvalKit项目Qwen2.5模型在MathVerse评测中的得分异常分析与解决方案

2025-07-03 01:47:59作者：卓艾滢Kingsley

在开源多模态评测框架VLMEvalKit的实际应用中，开发者Sync-yxh发现了一个值得注意的技术现象：当使用Qwen2.5-vl-instruct-3b模型对MathVerse_MINI_Vision_only数据集进行评测时，模型得分（9.0）显著低于OpenCompass官方报告的基准值（31.2）。经过深入分析，我们揭示了问题本质并提出了有效的解决方案。

问题现象分析

该问题出现在本地vLLM推理环境下，评测过程中观察到以下关键特征：

评测提示词(prompt)采用标准VQA格式，内容为"根据图片中的问题直接回答并给出正确选项字母（如A/B/C/D）"
模型输出结果包含完整推理过程，而非预期的单一选项字母
得分计算逻辑直接对输出结果进行整型转换导致匹配失败

技术原理探究

深入研究发现，Qwen2.5-72B等大模型在数学推理任务中具有以下特性：

输出模式差异：与简单分类模型不同，大语言模型倾向于输出完整推理链
结果格式化：模型会在最终答案前附加分析过程（如"经过计算，正确答案是：A"）
评测适配问题：原始评分逻辑假设输出为纯选项字符，未考虑大模型的复杂输出模式

解决方案实现

针对该问题，我们提出两种技术方案：

方案一：结果提取优化

修改评分逻辑，从模型输出中提取首个字符作为答案判断：

# 原代码
score = int(res) == 1  
# 修改为
score = int(res[0]) == 1

方案二：提示词工程优化

增强提示词的指令约束性：

"请严格按以下格式回答：直接输出选项字母（仅一个大写字母），不要包含任何额外文字。问题：..."

实践建议

对于本地vLLM推理环境的使用者，建议：

对模型输出进行预处理，提取有效答案片段
针对不同模型特性设计差异化的评分策略
建立输出格式校验机制，确保评测结果可靠性
在跨模型比较时注意输出模式的兼容性处理

该案例典型地展示了在大模型评测中格式适配的重要性，为多模态评测系统的实践应用提供了有价值的参考经验。

VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781