首页
/ OpenCompass/VLMEvalKit 中VQA任务的评估问题解析

OpenCompass/VLMEvalKit 中VQA任务的评估问题解析

2025-07-03 18:42:27作者:庞队千Virginia

在OpenCompass/VLMEvalKit项目中,视觉问答(VQA)任务的评估一直是一个值得关注的技术点。近期项目团队确认了OCR-VQA、TextVQA、ChartQA等VQA任务中存在的一些已知问题,并已进行了修复。

评估模式说明

项目团队明确指出,修复后的版本采用了零样本(zero-shot)评估方式对所有基准测试进行评估。这与少量样本(few-shot)评估方式会存在一定差异,开发者和研究人员在使用时需要注意这一区别。

DocVQA评估指标问题

在DocVQA任务评估中,用户反馈使用ANLS(平均归一化莱文斯坦相似度)指标时得分较低(仅5.3分)。这实际上反映了文档视觉问答任务的特殊性:

  1. ANLS是DocVQA任务的标准评估指标,它考虑了答案的模糊匹配
  2. 低分可能源于模型对文档布局理解不足或OCR识别精度问题
  3. 文档类VQA通常比一般VQA任务更具挑战性

技术建议

对于使用VLMEvalKit进行VQA评估的研究人员,建议:

  1. 明确区分不同VQA子任务的特点
  2. 理解各任务的标准评估指标(如DocVQA用ANLS)
  3. 注意评估模式(zero-shot vs few-shot)对结果的影响
  4. 对低分结果进行详细错误分析,而非仅看最终得分

项目团队持续优化这些视觉语言任务的评估框架,开发者可以关注后续更新以获得更准确的评估结果。

登录后查看全文
热门项目推荐
相关项目推荐