VLMEvalKit项目中的MMMU测试集结果转换功能解析

2025-07-03 01:39:02作者：胡易黎Nicole

背景介绍

VLMEvalKit是一个用于视觉语言模型评估的工具包，它支持多种评估数据集和指标。在评估MMMU（多模态多任务理解）测试集时，工具包会生成xlsx格式的结果文件。然而，MMMU官方评估服务器要求提交特定格式的JSON文件，这就产生了格式转换的需求。

问题分析

当使用VLMEvalKit评估MMMU测试集时，系统默认会生成一个xlsx格式的输出文件。这个文件包含两列关键数据：

第一列：问题ID或样本标识符
第二十三列：模型预测结果

然而，MMMU官方评估服务器要求提交的结果文件必须是一个JSON格式的字典，其中键是问题ID，值是对应的模型预测结果。这种格式差异导致用户无法直接将VLMEvalKit的输出提交到官方评估平台。

解决方案实现

VLMEvalKit团队已经通过代码提交实现了自动转换功能。该功能的核心逻辑是：

读取xlsx格式的结果文件
提取第一列（问题ID）和第二十三列（模型预测结果）
将这些数据构造成一个Python字典
将字典序列化为JSON格式并保存

转换后的JSON文件格式完全符合MMMU官方评估服务器的要求，可以直接提交用于在线评估。

技术细节

转换过程主要依赖Python的两个核心库：

pandas：用于高效读取和处理xlsx文件
json：用于将Python字典序列化为JSON格式

转换函数的主要逻辑包括：

使用pandas的read_excel方法读取xlsx文件
通过iloc索引选择需要的列
构建结果字典，其中键是问题ID，值是模型预测
使用json.dumps方法生成格式化的JSON字符串

使用注意事项

用户需要注意以下几点：

转换功能目前只在主分支可用，使用时需确保代码最新
转换过程会自动跳过非官方服务器的评估请求
生成的JSON文件会保存在与原始xlsx文件相同的目录下
文件名会保持一致性，仅扩展名变为.json

未来展望

这一功能的实现大大简化了用户提交MMMU评估结果的工作流程。未来可能会进一步优化：

增加更多格式转换选项
支持批量转换
提供更详细的转换日志
增加错误处理和格式验证机制

通过这一功能，VLMEvalKit进一步提升了其在多模态模型评估领域的实用性和易用性。

VLMEvalKit

Open-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

518

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

648

287

VLMEvalKit项目中的MMMU测试集结果转换功能解析

背景介绍

问题分析

解决方案实现

技术细节

使用注意事项

未来展望

热门内容推荐

最新内容推荐

项目优选

VLMEvalKit项目中的MMMU测试集结果转换功能解析

背景介绍

问题分析

解决方案实现

技术细节

使用注意事项

未来展望

相关内容推荐

热门内容推荐

最新内容推荐

项目优选