KServe vLLM引擎在未定义max_tokens时的崩溃问题分析

2025-06-16 01:31:14作者：宣聪麟

问题背景

在使用KServe部署Hugging Face模型服务时，当配置vLLM后端并启用多步调度功能（num-scheduler-steps > 1）时，如果客户端请求中未指定max_tokens参数，会导致vLLM引擎崩溃。这个问题不仅影响当前请求，还会导致后续所有请求失败，服务进入不可用状态。

技术细节分析

该问题的根本原因在于vLLM的多步调度处理器（multi_step.py）在设计时假设所有请求都会包含max_tokens参数。当这个假设不成立时，处理器尝试对None值进行数学运算，从而抛出类型错误异常。

具体来说，在vLLM的多步调度处理流程中，处理器会计算剩余token数量：

remaining_tokens = sampling_params.max_tokens - (seq.get_output_len() + ...)

当max_tokens为None时，这个减法操作就会失败。

影响范围

这个问题具有以下特点：

仅在启用多步调度（num-scheduler-steps > 1）时出现
影响所有未指定max_tokens的OpenAI兼容API请求
会导致服务不可恢复，需要重启才能恢复正常

解决方案

针对这个问题，社区已经提出了修复方案，主要思路是：

在参数转换阶段为max_tokens设置合理的默认值
确保所有后续处理逻辑都能处理max_tokens参数

修复的核心是确保vLLM引擎在任何情况下都能获得有效的max_tokens值，即使客户端请求中没有显式指定。

最佳实践建议

为了避免类似问题，建议开发人员：

在客户端请求中总是明确指定max_tokens参数
如果确实需要不限制输出长度，应该设置一个非常大的max_tokens值
在生产环境中使用新版本前，充分测试各种边界条件

总结

这个问题展示了深度学习服务部署中的一个典型挑战：当不同组件对接口参数的假设不一致时，可能导致系统级故障。KServe社区通过及时修复这个问题，提高了vLLM后端的稳定性和可靠性，为生产环境中的大规模语言模型服务提供了更好的支持。

kserve

Standardized Distributed Generative and Predictive AI Inference Platform for Scalable, Multi-Framework Deployment on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。