Triton Inference Server中vLLM模型的多请求处理崩溃问题分析

2025-05-25 02:00:37作者：凤尚柏Louis

问题背景

在使用Triton Inference Server 23.11版本部署vLLM模型时，开发人员发现了一个关键问题：当客户端以单请求方式访问服务器时，系统运行正常；但当客户端发起多线程并发请求时，服务器在经过若干次迭代后会突然崩溃，并产生段错误(Segmentation fault)。

错误现象

服务器崩溃时输出的错误日志显示，问题发生在GRPC响应处理阶段。典型的错误堆栈显示：

Signal (11) received.
0# 0x0000559334F1667D in /opt/tritonserver/bin/tritonserver
1# 0x00007FA5EAD8D520 in /usr/lib/x86_64-linux-gnu/libc.so.6
2# TRITONBACKEND_ResponseFactoryIsCancelled in /opt/tritonserver/bin/../lib/libtritonserver.so
3# 0x00007FA5D870E1B9 in /opt/tritonserver/backends/python/libtriton_python.so

值得注意的是，崩溃并非发生在vLLM模型的推理过程中，而是在GRPC发送响应的环节。这种崩溃行为具有随机性，有时请求可以正常完成，但大多数情况下会导致服务器崩溃。

问题诊断

经过深入分析，可以得出以下关键发现：

版本相关性：该问题在Triton 23.11版本中较为常见，但在升级到24.05版本后问题得到解决，表明这是一个已知且已修复的问题。
环境配置影响：尝试在不同版本的vLLM(0.2.1、0.3.2)下测试，发现vLLM版本不是导致崩溃的直接原因。
并发处理缺陷：问题仅在多线程并发请求时出现，说明Triton 23.11版本的GRPC前端在处理并发响应时存在缺陷。

解决方案

对于遇到类似问题的开发者，建议采取以下解决方案：

升级Triton版本：将Triton Inference Server升级到24.05或更高版本，该版本包含了GRPC前端的相关修复。
使用官方推荐配置：如果必须使用23.11版本，建议使用官方提供的tritonserver:23.11-vllm-python-py3镜像，并保持默认的vLLM版本(0.2.1)，避免版本冲突。
监控资源使用：在运行过程中监控GPU KV缓存使用率，确保不会因资源耗尽导致异常。