VLMEvalKit中LLaVABench评估指标的版本差异解析

2025-07-03 14:45:07作者：邓越浪Henry

在开源项目VLMEvalKit中，LLaVABench作为重要的多模态模型评估基准，其评分机制存在一些需要特别注意的技术细节。本文将从评估指标设计原理和版本差异两个方面进行深入分析。

评估指标的三重维度

VLMEvalKit中的LLaVABench评估结果包含三个关键指标：

VLM Score：待测视觉语言模型的实际得分
GPT4 Score：GPT-4作为参考模型生成的基准得分
Relative Score：基于前两者的相对评分，计算公式为(VLM Score/GPT4 Score)*100

这种设计理念源于对模型性能评估的客观性需求。通过引入参考模型的基准得分，可以消除不同评估任务间的难度差异，使结果更具可比性。

与原始LLaVA项目的关键差异

值得注意的是，原始LLaVA项目仅报告了相当于VLMEvalKit中的Relative Score（相对评分），而VLMEvalKit则提供了更全面的评分维度。这种差异源于两个项目对"GPT4 Score"的不同定义：

在LLaVA项目中：GPT4 Score指代由GPT-4评估的模型得分
在VLMEvalKit中：GPT4 Score特指GPT-4作为参考模型生成的答案得分

GPT-4版本差异的影响

实践发现，使用不同版本的GPT-4会导致显著的评分差异。例如：

使用GPT-4-1106时，LLaVA-1.6-Mistral-7B模型的Relative Score约为66.6
切换至GPT-4-0613后，评分可提升至约80.0

这种差异主要源于：

模型能力的迭代改进
评分标准的潜在调整
输出稳定性的变化

最佳实践建议

为确保评估结果的可比性，建议：

明确记录使用的GPT-4具体版本
在对比不同模型时保持评估环境一致
同时关注绝对分数和相对分数
对关键结果进行多版本验证

理解这些技术细节对于正确解读评估结果至关重要，特别是在进行跨项目模型比较时，需要特别注意评估标准和基础模型版本的差异。

VLMEvalKit

Open-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。