VLMEvalKit数据集处理中的选项解析问题与解决方案

2025-07-03 17:29:49作者：俞予舒Fleming

背景介绍

在评估视觉语言模型性能的过程中，VLMEvalKit项目提供了多个标准数据集的支持。其中RealWorldQA和MMMU_DEV_VAL是两个重要的视觉问答基准测试集。然而，在数据集预处理阶段，我们发现了一些关于选项解析的技术问题，这些问题可能会影响模型评估的准确性。

选项分隔符缺失导致的解析错误 在RealWorldQA数据集中，部分题目由于选项间缺少明确的分隔符(如句点".")，导致预处理脚本无法正确识别所有选项。例如index=105的题目，原始数据包含A、B、C三个选项，但由于B选项后缺少分隔符，预处理后仅保留了A和C两个选项，而正确答案C在这种情况下变得无效。
选项遗漏问题 类似的情况还出现在index=633的题目中，C选项因解析问题被遗漏，导致题目结构不完整。
答案格式不一致 部分题目如index=731，原始数据集中的答案未统一处理成标准选项格式，在预处理阶段也未进行修正，导致评估时可能出现偏差。

特殊选项处理问题 在MMMU_DEV_VAL数据集中，当选项内容为"None"时，预处理过程中被错误地转换为NaN值。例如validation_Geography_15题目，D选项为"None"，被处理为缺失值，导致模型评估时可能只显示ABC三个选项，而正确答案D在这种情况下无法被正确选择。

针对上述问题，VLMEvalKit开发团队已采取以下措施：

这些问题的修复对于视觉语言模型的准确评估至关重要。选项解析错误会导致：

通过修正这些问题，VLMEvalKit能够提供更可靠、一致的评估环境，确保模型性能比较的公平性。

对于使用VLMEvalKit的研究人员，建议：

这些措施将帮助研究人员获得更准确的模型评估结果，推动视觉语言模型领域的可靠发展。

登录后查看全文