VLMEvalKit项目新增API自定义提示功能的技术解析

2025-07-03 16:15:00作者：郦嵘贵Just

Open-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

在大型视觉语言模型评估工具VLMEvalKit的最新更新中，开发团队为API接口增加了自定义提示(prompt)功能支持。这一改进解决了用户在实际使用中遇到的关键问题：通过API测试模型与直接测试模型时存在的行为不一致现象。

技术背景方面，视觉语言模型的评估过程中，提示工程(prompt engineering)是影响模型表现的关键因素之一。原先版本中，API接口采用固定格式的提示模板，而本地模型测试则允许更灵活的提示定制，这种差异可能导致评估结果的偏差。

此次更新主要涉及两个核心代码模块的修改：

API测试接口(vlmeval/inference.py第33行附近)
本地模型测试接口(vlmeval/inference.py第111行附近)

实现方案上，开发团队通过重构API调用逻辑，新增了prompt参数传递机制。现在用户可以通过指定prompt参数，实现与本地测试完全一致的提示控制，包括：

系统提示(system prompt)定制
用户指令(user instruction)调整
上下文模板(context template)修改

这项改进具有重要的实践价值：

提升评估一致性：确保API测试与本地测试在相同提示条件下进行
增强实验可复现性：研究者可以精确控制提示内容
支持更灵活的评估场景：适应不同领域的特殊提示需求

对于使用者而言，现在可以通过简单的参数传递即可实现自定义提示，例如在调用评估API时指定prompt参数。这一改动保持了API原有的简洁性，同时提供了更大的灵活性。

该功能更新体现了VLMEvalKit项目对评估严谨性的持续追求，也展示了开源社区响应开发者需求的敏捷性。对于视觉语言模型的研究者和开发者来说，这一改进将有助于获得更加准确、可靠的模型评估结果。

Open-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。