Monkey项目MME评估结果差异分析与模型对比

2025-07-08 23:10:18作者：秋阔奎Evelyn

Monkey (LMM): Image Resolution and Text Label Are Important Things for Large Multi-modal Models

项目地址：https://gitcode.com/gh_mirrors/monke/Monkey

在视觉语言模型领域，评估指标的准确性对于模型性能判断至关重要。近期在使用Monkey项目进行MME（Multimodal Model Evaluation）基准测试时，开发者遇到了评估结果与官方报告存在差异的情况。本文将从技术角度深入分析这一现象，并对比Monkey与Monkey-Chat两个模型版本的关键区别。

评估结果差异分析

根据实际测试数据，使用开源Monkey模型权重获得的MME评估结果为：

感知能力(Perception)：1484分
认知能力(Cognition)：375分

这与官方报告的Monkey模型基准成绩（Perception 1505分）存在一定差距。经过技术验证，发现这种差异主要来源于以下因素：

输入格式差异：官方测试使用的prompt模板在图像路径和问题之间添加了换行符，这种细微的格式变化会影响模型输出
生成参数配置：max_new_tokens参数设置为10（而非5）能获得更完整的回答
模型版本区别：需注意区分Monkey基础版与优化后的Monkey-Chat版本

模型架构与性能对比

Monkey项目包含两个主要版本：

Monkey基础版
- 开源模型权重
- 使用特定prompt格式：<img>{img_path}</img>\n{question} Answer:
- MME典型成绩：Perception 1505分
Monkey-Chat优化版
- 部署于在线演示系统
- 采用简化的prompt格式：<img>{img_path}</img> {question} Answer:
- 性能表现更优：Perception 1522分，Cognition 401分
- 使用不同的训练数据集（非llava1.5-mix665k）

最佳实践建议

对于开发者使用Monkey模型进行MME评估，建议注意以下技术细节：

严格遵循官方提供的测试代码模板
注意模型版本选择，基础版与Chat版的prompt格式存在差异
合理设置生成参数，特别是max_new_tokens长度
确保评估环境的一致性，包括CUDA版本、transformers库版本等

通过理解这些技术细节，开发者能够更准确地评估模型性能，并为实际应用选择合适的模型版本。模型的小版本差异可能带来显著的性能变化，这在多模态模型评估中需要特别关注。

Monkey (LMM): Image Resolution and Text Label Are Important Things for Large Multi-modal Models

项目地址：https://gitcode.com/gh_mirrors/monke/Monkey

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统