OpenCompass/VLMEvalKit 对 InternVL 2.5 和 DeepSeek-VL2 的模型支持现状分析

2025-07-03 17:35:53作者：卓炯娓

Open-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

OpenCompass/VLMEvalKit 作为多模态大模型评测工具链，近期在社区中引发了关于其对 InternVL 2.5 和 DeepSeek-VL2 模型支持情况的讨论。本文将从技术实现角度解析当前支持进展，并探讨实际评测中的注意事项。

InternVL 2.5 的完整支持

项目已实现对 InternVL 2.5 的全面支持，开发者可通过配置文件直接调用该模型进行评测。值得注意的是：

模型版本适配：当前支持包括 8B 参数量版本在内的多个规格
评测指标差异：实际测试显示，在 ChartQA 基准上存在约 2% 的性能差距，可能源于：
- 评测环境差异（硬件/框架版本）
- 数据预处理流程微调
- 模型量化带来的精度损失

DeepSeek-VL2 的支持规划

针对 DeepSeek 最新发布的视觉语言模型 VL2：

已纳入项目开发路线图
技术团队正在进行：
- 模型接口适配
- 评测流水线验证
- 多模态对齐测试

给开发者的实践建议

模型调用：通过 config 配置文件选择对应模型标识符
结果验证：建议与官方 paper 保持相同实验设置进行对比
性能调优：可尝试调整 batch size 等超参数缩小基准差距

该项目持续跟踪前沿视觉语言模型发展，建议开发者关注项目更新日志获取最新支持动态。对于需要精确复现论文结果的场景，建议详细核对评测环境配置说明。

Open-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。