Qwen模型生成文本长度控制的技术解析

2025-05-12 18:41:10作者：段琳惟

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen

在使用Qwen模型进行文本生成时，开发者可能会遇到生成文本长度超出预期的问题。本文将深入探讨这一现象的原因，并提供有效的解决方案。

问题现象

当开发者使用Qwen模型的generate方法时，即使设置了max_new_tokens参数为25，生成的文本长度仍然可能超过这个限制。这看似是一个bug，但实际上涉及对模型生成机制的理解。

根本原因

token与字符的区别：在自然语言处理中，特别是基于Transformer的模型中，文本首先会被分词器(tokenizer)转换为token序列。对于中文而言，一个token可能对应多个汉字，这与开发者直观理解的"字符"概念不同。
参数设置方式：直接向generate方法传递max_new_tokens参数可能不会覆盖模型默认的generation_config配置。

解决方案

正确的做法是修改模型的generation_config中的max_new_tokens参数：

# 正确的配置方式
model.generation_config.max_new_tokens = 25
batch_out_ids = model.generate(
    batch_input_ids,
    stop_words_ids=stop_words_ids,
    return_dict_in_generate=False,
    generation_config=model.generation_config
)

技术细节

分词机制：Qwen使用基于BPE的分词器，中文文本通常会被切分为子词单元。例如，"自然语言处理"可能被分为2-3个token，而不是5个。
生成控制：max_new_tokens控制的是生成的token数量，而非字符数量。这是所有基于Transformer的模型的通用行为。
配置优先级：generation_config中的参数通常具有更高的优先级，直接修改它可以确保配置生效。

最佳实践

在设置生成长度时，应考虑目标语言的分词特性。对于中文，建议将max_new_tokens设置为预期汉字数量的1.5-2倍。
可以使用tokenizer的encode和decode方法测试分词结果，更好地理解token与文本的对应关系。
对于严格的长度控制，可以结合max_new_tokens和early_stopping参数使用。

总结

理解模型的分词机制和生成配置是有效控制输出长度的关键。Qwen作为大型语言模型，其行为与其他Transformer模型一致，开发者需要适应以token为单位的控制方式，而非直观的字符计数。通过正确配置generation_config，完全可以实现精确的生成长度控制。

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统