MiniCPM-V 2.6模型在MathVista基准测试中的性能复现问题分析

2025-05-11 10:14:43作者：毕习沙Eudora

背景介绍

MiniCPM-V是由OpenBMB团队开发的多模态大语言模型，其2.6版本在MathVista_MINI基准测试中报告取得了60.6分的优异成绩。然而，部分开发者在实际测试中发现，使用相同模型仅获得33分左右的性能表现，与官方报告存在显著差距。这一现象引发了社区对模型性能复现性的关注。

问题根源探究

经过技术分析，该性能差异主要源于以下几个关键因素：

评测工具版本差异
MiniCPM-V 2.6的官方测试分数是使用特定版本的VLMEvalKit工具包获得的。该工具包后续进行了更新，特别是对GPT系列模型的调用方式进行了调整，这可能导致评测结果产生微小波动。
依赖环境不一致
官方明确指出了复现环境要求：
- torch==2.2.0
- torchvision==0.17.0
- transformers==4.43.4
  不同版本的深度学习框架和转换库可能对模型推理过程产生微妙影响。
评测流程规范化
官方已向VLMEvalKit主仓库提交了Pull Request，确保评测流程的标准化。开发者若直接使用未经修改的评测工具，可能无法完全复现官方测试条件。

解决方案建议

对于希望准确复现MiniCPM-V 2.6性能的开发者，建议采取以下措施：

使用专用评测分支
项目eval_mm目录下提供了经过验证的VLMEvalKit副本，该版本已针对MiniCPM-V进行了优化配置，能够确保评测条件与官方测试一致。
严格环境配置
按照requirements.txt精确配置Python环境，特别注意保持PyTorch、TorchVision和Transformers的版本与官方要求完全一致。
理解基准测试特性
MathVista测试集包含复杂的多模态数学推理任务，评测过程中涉及视觉理解和逻辑推理的交互。官方采用的特定预处理和后处理方法可能对最终得分产生影响。

技术启示

这一案例凸显了大模型评测中环境复现的重要性。在实际工程实践中，开发者需要注意：

大语言模型对框架版本敏感度较高
多模态任务的评测流程需要标准化
基准测试工具本身的迭代可能影响结果可比性

OpenBMB团队通过提供专用评测工具和明确环境要求，为社区建立了可复现的评测基准，这一做法值得其他大模型项目借鉴。对于学术研究和工业应用而言，确保评测结果的可比性和可复现性至关重要。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统