vLLM项目中InternVL模型调用挂起问题的技术分析与解决方案

2025-05-01 18:40:29作者：凌朦慧Richard

问题背景

在vLLM项目使用过程中，部分开发者报告了InternVL3-9B模型调用时出现挂起的问题。该问题表现为当通过AI服务接口调用InternVL3-9B模型时，请求无法正常完成，系统进入无响应状态。类似的问题也出现在InternVL3-78B模型上，表明这可能是一个与InternVL系列模型相关的共性问题。

技术现象分析

从开发者提供的日志和错误信息来看，该问题表现出以下特征：

模型加载过程看似正常完成，没有报错
服务接口能够启动并接受请求
当发送包含图像和文本的多模态请求时，系统进入挂起状态
部分情况下会伴随出现"Expected int, got None"的验证错误

根本原因探究

经过技术团队深入分析，发现该问题由多个因素共同导致：

多模态处理异常：InternVL系列模型作为视觉语言模型，在处理图像输入时可能触发了vLLM引擎中的某些边界条件，导致处理流程中断。
停止令牌配置问题：部分开发者遇到的"Expected int, got None"错误表明，模型配置中可能存在不兼容的停止令牌设置。特别是当使用Qwen等特定tokenizer时，其bos_token设置为null可能导致验证失败。
内存管理问题：大模型在多GPU环境下运行时，内存分配策略可能不够优化，特别是在处理高分辨率图像输入时容易引发内存不足或死锁。

解决方案

针对上述问题，开发团队提供了以下解决方案：

参数优化配置：
- 确保正确设置tensor-parallel-size参数与可用GPU数量匹配
- 合理配置gpu-memory-utilization参数，建议从0.8开始逐步调优
- 显式设置dtype为bfloat16以优化内存使用
停止令牌验证修复：
- vLLM团队已提交补丁，改进了对停止令牌列表的验证逻辑
- 开发者应检查并确保所有stop_token_ids均为有效整数
多模态处理建议：
- 对于图像输入，建议先进行适当的预处理和大小调整
- 考虑使用limit-mm-per-prompt参数限制多模态输入的内存占用