首页
/ OpenCompass/VLMEvalKit 中VQA任务的评估问题解析

OpenCompass/VLMEvalKit 中VQA任务的评估问题解析

2025-07-03 16:45:17作者:庞队千Virginia

在OpenCompass/VLMEvalKit项目中,视觉问答(VQA)任务的评估一直是一个值得关注的技术点。近期项目团队确认了OCR-VQA、TextVQA、ChartQA等VQA任务中存在的一些已知问题,并已进行了修复。

评估模式说明

项目团队明确指出,修复后的版本采用了零样本(zero-shot)评估方式对所有基准测试进行评估。这与少量样本(few-shot)评估方式会存在一定差异,开发者和研究人员在使用时需要注意这一区别。

DocVQA评估指标问题

在DocVQA任务评估中,用户反馈使用ANLS(平均归一化莱文斯坦相似度)指标时得分较低(仅5.3分)。这实际上反映了文档视觉问答任务的特殊性:

  1. ANLS是DocVQA任务的标准评估指标,它考虑了答案的模糊匹配
  2. 低分可能源于模型对文档布局理解不足或OCR识别精度问题
  3. 文档类VQA通常比一般VQA任务更具挑战性

技术建议

对于使用VLMEvalKit进行VQA评估的研究人员,建议:

  1. 明确区分不同VQA子任务的特点
  2. 理解各任务的标准评估指标(如DocVQA用ANLS)
  3. 注意评估模式(zero-shot vs few-shot)对结果的影响
  4. 对低分结果进行详细错误分析,而非仅看最终得分

项目团队持续优化这些视觉语言任务的评估框架,开发者可以关注后续更新以获得更准确的评估结果。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
32
16
pytorchpytorch
Ascend Extension for PyTorch
Python
746
927
flutter_flutterflutter_flutter
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.02 K
267
docsdocs
暂无描述
Dockerfile
771
5.03 K
ops-transformerops-transformer
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
867
1.97 K
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
70
22
atomcodeatomcode
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started
Rust
1.94 K
202
ops-nnops-nn
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
694
1.36 K
kernelkernel
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
465
456
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
C
458
5.25 K