VLMEvalKit项目中使用vLLM加载模型时遇到并行配置问题的解决方案

2025-07-03 05:36:44作者：管翌锬

问题背景

在VLMEvalKit项目中，当用户尝试使用vLLM接口加载Qwen2-VL-7B-Instruct模型进行视频多模态评估时，遇到了一个关于并行配置的运行时错误。具体表现为当使用8个GPU进程启动评估脚本时，系统报错提示"world_size (8)与tensor_model_parallel_size (1) x pipeline_model_parallel_size (1)不匹配"。

技术分析

这个错误源于vLLM框架内部的并行状态检查机制。vLLM在初始化时会验证分布式配置参数的一致性，确保总进程数(world_size)等于张量并行度(tensor_model_parallel_size)与流水线并行度(pipeline_model_parallel_size)的乘积。

在默认配置下，vLLM的这两个并行参数都设置为1，这意味着它预期以单进程模式运行。然而用户通过torchrun启动了8个进程，导致系统检测到配置不匹配。

解决方案

对于VLMEvalKit项目的用户，建议采用以下两种解决方案：

单进程运行模式：修改启动命令，仅使用单个GPU进程：
```
torchrun --nproc-per-node=1 run.py --data Video-MME --model Qwen2_VL-M-RoPE-80k
```
这种方法简单直接，适合小规模测试或资源有限的环境。
API服务模式（推荐）：将模型部署为独立的API服务，然后通过HTTP请求进行评估：
- 首先单独启动vLLM服务：
```
python -m vllm.entrypoints.api_server --model /path/to/Qwen2-VL-7B-Instruct
```
- 然后修改评估脚本，通过API接口与模型交互