vLLM项目高并发场景下的注意力计算异常问题分析与解决方案

2025-05-01 22:50:04作者：韦蓉瑛

A high-throughput and memory-efficient inference and serving engine for LLMs

项目地址：https://gitcode.com/GitHub_Trending/vl/vllm

在vLLM项目实际应用中发现，当系统并发请求数达到16及以上时，模型输出会出现异常结果。具体表现为生成内容中出现大量重复数字或符号，与正常情况下的连贯文本形成鲜明对比。这个问题在启用chunked-prefill功能时尤为明显。

问题现象

测试环境配置为L20x3 GPU，采用8路张量并行和3路流水线并行。当并发数在1-12之间时，模型能够生成符合预期的技术性回答。但当并发数提升至16时，输出开始出现异常，表现为大量重复数字"0.0.0"等；当并发数达到32时，约30%的请求会返回异常结果，内容变为大量重复的"5,5,5"等数字序列。

问题根源

通过深入调试发现，问题出在注意力机制的计算过程中。具体表现为：

在_compute_prefill_context函数中，attn_softmax_lse（注意力softmax对数求和指数）出现了大量inf值
尽管context_chunk_max_seq_lens（上下文块最大序列长度）显示为正常数值613，但softmax计算仍然产生了15408个inf值
这种现象在高并发时频繁出现，导致注意力权重计算失效

解决方案

经过排查，发现问题与chunked-prefill功能实现有关。临时解决方案是禁用该功能，但这会影响长序列处理的效率。更根本的解决方案已在相关代码提交中实现，该修复确保了在高并发情况下注意力计算的稳定性。

技术启示

这个问题揭示了分布式推理系统中几个关键点：

高并发场景下的数值稳定性问题容易被忽视
注意力机制实现中的边界条件需要特别处理
并行计算中的同步和数值范围检查至关重要
测试覆盖需要包含极端并发场景

该问题的解决为vLLM项目在高性能推理场景下的稳定性提供了重要保障，也为类似系统的开发提供了宝贵经验。开发者在使用时应确保使用包含此修复的版本，特别是在高并发生产环境中。

A high-throughput and memory-efficient inference and serving engine for LLMs

项目地址：https://gitcode.com/GitHub_Trending/vl/vllm

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统