Qwen-Agent项目中VLLM服务部署与max_tokens参数优化实践

2025-06-02 05:22:47作者：凤尚柏Louis

Agent framework and applications built upon Qwen, featuring Code Interpreter and Chrome browser extension.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen-Agent

问题背景

在使用Qwen-Agent项目时，开发者可能会遇到一个典型的错误：Error code: 400 - {'object': 'error', 'message': 'max_tokens must be at least 1, got -2815'}。这个错误表面上看是关于max_tokens参数的设置问题，但实际上反映了更深层次的模型服务配置问题。

错误原因分析

通过日志分析可以发现，当使用VLLM部署Qwen1.5-72B-Chat模型时，系统默认设置了max_tokens=300，但实际运行中却出现了负值(-2815)的错误报告。这种矛盾现象的根本原因在于模型服务的上下文长度限制与Qwen-Agent框架的默认配置不匹配。

Qwen-Agent框架在进行RAG(检索增强生成)任务时，默认会使用4k长度的检索材料，再加上对话上下文，通常需要6k左右的模型长度支持。而如果VLLM服务启动时设置了--max-model-len 512这样较小的值，就会导致系统无法处理较长的上下文，从而出现参数计算错误。

解决方案

1. 调整VLLM服务参数

最直接的解决方案是增加VLLM服务的max-model-len参数值。根据实践经验：

对于纯聊天场景，2048的长度通常足够
对于RAG任务，建议至少设置为4096
理想情况下，6144的长度可以更好地支持复杂任务

但需要注意的是，较大的max-model-len值会显著增加显存占用。对于显存有限的设备(如40G显存的单卡)，直接增加此参数可能导致显存溢出。

2. 使用量化模型

对于显存有限的设备，推荐使用量化模型来降低显存需求：

可以考虑使用Qwen1.5-72B-Chat-AWQ等量化版本
量化模型能在保持较好性能的同时大幅降低显存占用
量化模型的部署方式与原始模型基本相同

3. 调整Qwen-Agent参数

如果无法修改VLLM服务的配置，可以调整Qwen-Agent的运行参数：

通过run_server.py的--max_ref_token参数减少检索材料的长度
但即使如此，建议VLLM服务的max-model-len至少设置为2048

4. 替代部署方案

如果VLLM无法满足需求，可以考虑其他部署方案：

使用Ollama等支持混合CPU/GPU计算的框架
这类框架通常默认使用量化模型，对硬件要求较低
虽然在速度和吞吐量上可能不如VLLM，但更适合资源有限的环境

最佳实践建议

硬件匹配：根据硬件配置选择合适的模型版本和服务框架。高端GPU可以使用原生VLLM+全精度模型，中低端设备考虑量化模型或替代框架。
参数调优：在VLLM部署时，合理设置--max-model-len参数，平衡性能需求和硬件限制。可以尝试从2048开始，逐步增加直到找到稳定值。
错误处理：在应用层增加对长度限制错误的捕获和处理机制，可以考虑实现自动截断或分块处理长文本的功能。
监控与日志：建立完善的监控系统，记录模型服务的显存使用情况和请求处理状态，便于及时发现和解决潜在问题。

通过以上方法，开发者可以有效地解决Qwen-Agent项目中遇到的max_tokens参数问题，并构建出稳定高效的大模型应用服务。

Agent framework and applications built upon Qwen, featuring Code Interpreter and Chrome browser extension.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen-Agent

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

openHiTLS-examples

本仓将为广大高校开发者提供开源实践和创新开发平台，收集和展示openHiTLS示例代码及创新应用，欢迎大家投稿，让全世界看到您的精巧密码实现设计，也让更多人通过您的优秀成果，理解、喜爱上密码技术。

deepin linux kernel

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

ohos_react_native

React Native鸿蒙化仓库

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

一款跨平台的 Markdown AI 笔记软件，致力于使用 AI 建立记录和写作的桥梁。