vLLM项目中的请求丢失问题分析与解决方案

2025-05-01 20:36:09作者：伍希望

问题现象

在使用vLLM项目部署大语言模型服务时，用户遇到了一个奇怪的现象：当并发发送多个请求时，系统会丢失大约一半的请求。这个问题在不同模型上都得到了复现，包括Qwen2.5-VL和Mistral-Small等不同架构的模型。

具体表现为：

通过curl命令并发发送10个请求，只有4-5个请求能获得正常响应
服务端日志显示接收到了所有请求，但客户端实际上只收到部分响应
问题与模型类型无关，在不同模型上都出现了相同现象

问题排查

通过分析日志和系统环境，我们可以梳理出以下关键信息：

环境配置：
- 系统运行在Ubuntu 24.04上
- 使用NVIDIA RTX 3090和Tesla P40两张显卡
- Python 3.12环境
- vLLM版本为0.8.3（最初使用nightly版本）

服务启动命令：

CUDA_VISIBLE_DEVICES=0 vllm serve /mnt/e/models/Qwen_Qwen2.5-VL-7B-Instruct-AWQ --max-model-len 32768 --gpu-memory-utilization 0.9 --limit-mm-per-prompt image=1,video=1 --port 11440

测试命令：

seq 10 | xargs -n1 -P10 curl -X POST "http://localhost:11440/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "model": "/mnt/e/models/Qwen_Qwen2.5-VL-7B-Instruct-AWQ",
  "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Hello! Tell me something interesting."}
  ],
  "temperature": 0.7
}' \
-s | jq '.choices[0].message.content'

可能原因分析

版本兼容性问题：
- 用户最初使用的是nightly版本的vLLM，可能存在不稳定因素
- Python 3.12相对较新，可能与某些库存在兼容性问题
GPU配置问题：
- 系统中存在两张不同架构的显卡（RTX 3090和Tesla P40）
- 虽然通过CUDA_VISIBLE_DEVICES指定了使用单卡，但底层驱动可能仍有干扰
并发处理机制缺陷：
- vLLM的请求队列管理可能在高并发时出现异常
- HTTP服务端与模型推理引擎之间的通信可能存在瓶颈
系统资源限制：
- 内存或显存管理可能存在问题
- 系统级别的连接限制可能影响了请求处理