VLMEvalKit项目多图输入处理异常问题分析

2025-07-03 07:25:14作者：申梦珏Efrain

在VLMEvalKit项目使用过程中，当测试MMMU_DEV_VAL数据集时，部分用户遇到了一个断言错误。这个错误发生在处理包含多个图像的输入提示时，系统预期分割后的文本块长度为2，但实际得到了长度为4的结果。

问题背景

该问题主要出现在LLaVA_XTuner模型的评估过程中。当输入提示中包含多个[Image]标记时，系统会将这些标记作为分隔符进行文本分割。例如，在测试题目中出现了如下结构：

问题描述文本
第一个[Image]标记
第二个[Image]标记
选择题选项部分

这种多图输入的情况导致了文本分割后的块数超出预期，触发了系统的断言检查。

技术分析

问题的核心在于LLaVA_XTuner模型的设计限制。该模型当前版本不支持交错的图文混合输入（interleaved input），只能处理单图输入的场景。当遇到多图输入时，系统会采取以下处理策略：

仅使用第一个图像作为视觉输入
将所有文本内容（包括其他[Image]标记后的文本）聚合为单一文本提示
丢弃后续的图像信息

这种处理方式虽然能保证程序继续运行，但可能会导致信息丢失，影响评估的准确性。

解决方案

针对这一问题，开发团队提供了两种可行的解决方案：

标记替换方案：将提示中的[Image]标记替换为其他不会被系统识别为分隔符的文本。这种方法简单直接，适用于临时性的测试需求。
模型升级方案：等待支持多图输入的模型版本更新。长期来看，这是更彻底的解决方案，可以完整保留输入信息。

最佳实践建议

对于当前需要使用VLMEvalKit进行多图评估的用户，建议：

仔细检查输入提示的结构，确保符合模型要求
对于必须使用多图的场景，考虑预处理输入数据，合并图像或调整提示结构
关注项目更新，及时升级到支持多图输入的版本

这个问题反映了视觉语言模型评估中的一个常见挑战：不同模型对输入格式的支持程度存在差异。开发者在设计评估流程时，需要充分考虑这些兼容性问题，确保评估结果的准确性和可比性。

VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

VLMEvalKit项目多图输入处理异常问题分析

问题背景

技术分析

解决方案

最佳实践建议

热门内容推荐

最新内容推荐

项目优选

VLMEvalKit项目多图输入处理异常问题分析

问题背景

技术分析

解决方案

最佳实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选