MiniCPM-V模型在MMMU基准测试中的分数差异解析

2025-05-12 09:39:50作者：虞亚竹Luna

MiniCPM-V 2.0: An Efficient End-side MLLM with Strong OCR and Understanding Capabilities

项目地址：https://gitcode.com/GitHub_Trending/mi/MiniCPM-V

背景介绍

MiniCPM-V是OpenBMB团队推出的轻量级多模态模型，基于OmniLMM-3B架构构建。近期，社区用户发现该模型在MMMU（Multi-Modal Multi-Task Understanding）基准测试中出现了官方榜单与GitHub文档报告的分数不一致现象：官方榜单显示其val分数为37.2，而项目README中标注为34.7。这一差异引发了技术讨论。

核心原因分析

经过技术团队确认，分数差异源于评测提示词（prompt）的配置不同：

官方榜单结果（37.2）
使用VLMEval Kit评测工具的标准提示词模板，该模板经过多模态任务优化，能更充分地激发模型能力。
GitHub文档结果（34.7）
采用项目内部测试时的自定义提示词，其设计可能未完全适配MMMU的题目特点，导致分数偏低。

技术启示

提示词工程的重要性
多模态模型的性能表现高度依赖输入提示的设计。不同的措辞、上下文引导方式可能使同一模型产生5%以上的分数波动。
评测可复现性建议
研究者若需复现37.2的分数，应严格遵循以下条件：
- 使用VLMEval Kit默认评测流程
- 确保数据预处理与官方提交版本一致
模型能力边界
即使采用优化提示词，MiniCPM-V作为3B参数的轻量级模型，其表现仍显著落后于12B参数的OmniLMM-12B（41.1分），这体现了模型规模对复杂多模态理解任务的关键影响。

实践指导

对于开发者而言，在对比模型性能时需注意：

确认评测工具的版本及配置
检查提示词是否与目标场景匹配
参数规模差异会直接影响结果可比性

该案例典型地反映了多模态评测中"细节决定分数"的现象，也为轻量级模型优化提供了改进方向——通过提示词优化可在不增加计算成本的情况下提升模型表现。

MiniCPM-V 2.0: An Efficient End-side MLLM with Strong OCR and Understanding Capabilities

项目地址：https://gitcode.com/GitHub_Trending/mi/MiniCPM-V

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

ohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ShopXO开源商城

🔥🔥🔥ShopXO企业级免费开源商城系统，可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存，遵循MIT开源协议发布、基于ThinkPHP8框架研发

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

deepin linux kernel

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

HarmonyOS-Examples

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。