OpenBMB/OmniLMM项目中MMMU基准测试的评估方法解析

2025-05-12 05:02:52作者：曹令琨Iris

项目地址：https://gitcode.com/gh_mirrors/om/OmniLMM

在OpenBMB/OmniLMM项目中，用户反馈在使用MiniCPM-Llama3-V-2_5模型进行MMMU（多模态理解）基准测试时，直接调用.chat()接口得到的准确率较低（0.35），而其他基准测试（如MathVista、OCRBench）表现正常。这一现象揭示了多模态模型评估中数据处理和接口调用的关键差异。

问题背景

MMMU基准测试要求模型处理复杂的多模态输入，通常包含交错的图像和文本信息。直接使用.chat()接口时，若仅将图像作为独立输入，而文本作为对话历史传递，可能无法完整还原MMMU题目中的多模态上下文关联，导致模型理解不充分。

技术原理

输入结构化差异
MMMU题目通常设计为图文混合的复合结构，例如题目描述包含指向图像的文本引用（如"如图1所示"）。标准.chat()接口的线性处理方式（先图像后文本）会破坏这种空间关联性。
评估工具适配
专业评估工具（如VLMEvalKit）会执行以下关键处理：
- 将图像和文本按原始顺序编码为交错序列
- 保留图像在文本中的位置标记（如<image 1>占位符）
- 动态调整视觉编码器的触发时机
模型架构特性
MiniCPM-Llama3-V系列采用混合注意力机制，其视觉token与文本token的交互效率取决于输入序列的构建方式。交错输入能更好地激活跨模态注意力头。

解决方案

对于MMMU类评估，建议采用以下实践：

输入预处理

# 示例：构建交错输入序列
inputs = [
    {"type": "text", "content": "问题描述第一部分"},
    {"type": "image", "content": PIL.Image.open("fig1.png")},
    {"type": "text", "content": "参考图示回答..."}
]

专用评估接口
使用项目提供的generate_interleaved方法（如存在）或适配VLMEvalKit的输入构造器，确保：
- 图像分辨率符合模型预期（通常448x448）
- 文本中的图像引用与视觉输入严格对齐
后处理优化
MMMU答案常为结构化选项（如A/B/C/D），需在模型输出后添加正则匹配层，例如：
```
import re
answer = re.search(r"([A-D])", model_output).group(1)
```