VLMEvalKit项目中使用本地LLM作为评测模型的实践指南

2025-07-03 20:35:54作者：姚月梅Lane

在开源项目VLMEvalKit中，用户经常需要配置本地大语言模型(LLM)作为评测模型来评估其他模型的性能。本文将详细介绍如何正确配置和使用本地LLM作为评测模型，以及解决在此过程中可能遇到的常见问题。

本地LLM评测模型的基本配置

VLMEvalKit支持通过LMDeploy工具部署本地LLM模型作为评测模型。基本部署命令如下：

lmdeploy serve api_server internlm/internlm2-chat-1_8b \
    --server-port 23333 \
    --model-name internlm2-chat-1_8b

这条命令会在本地23333端口启动一个API服务，提供internlm2-chat-1_8b模型的推理能力。启动后，VLMEvalKit可以通过这个API接口调用该模型进行评测任务。

常见问题与解决方案

1. Bad Gateway错误

当运行评测脚本时，可能会遇到"openai.InternalServerError: Bad Gateway"错误。这通常是由于以下原因导致的：

端口访问限制：服务器防火墙可能阻止了对指定端口的访问
API密钥配置问题：如果启用了API密钥验证但未正确配置
服务未正确启动：模型服务可能没有成功启动或已崩溃

解决方案包括：

检查服务是否正常运行，可以使用curl测试API接口
尝试更换端口号
确保服务绑定到0.0.0.0而非localhost

2. API密钥配置

虽然本地部署的模型理论上不需要API密钥，但为了与OpenAI API兼容，建议配置一个简单的API密钥：

lmdeploy serve api_server internlm/internlm2-chat-1_8b \
    --server-port 23333 \
    --model-name internlm2-chat-1_8b \
    --api-keys sk-123456

在评测脚本中，需要设置相应的环境变量：

export OPENAI_API_KEY="sk-123456"
export OPENAI_API_BASE="http://0.0.0.0:23333/v1"

最佳实践建议

服务稳定性：确保模型服务有足够的计算资源，避免因资源不足导致服务崩溃
日志监控：启用LMDeploy的日志功能，便于排查问题
性能优化：根据硬件配置调整并发数和批处理大小
版本兼容性：确保VLMEvalKit、LMDeploy和模型权重版本兼容

通过以上配置和注意事项，用户可以顺利地在VLMEvalKit中使用本地LLM模型进行评测任务，既保证了评测的灵活性，又降低了使用成本。

VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

VLMEvalKit项目中使用本地LLM作为评测模型的实践指南

本地LLM评测模型的基本配置

常见问题与解决方案

1. Bad Gateway错误

2. API密钥配置

最佳实践建议

热门内容推荐

最新内容推荐

项目优选

VLMEvalKit项目中使用本地LLM作为评测模型的实践指南

本地LLM评测模型的基本配置

常见问题与解决方案

1. Bad Gateway错误

2. API密钥配置

最佳实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选