Verl项目中Qwen2VL模型训练后重复生成"Human"标记问题分析与解决方案

2025-05-31 05:23:55作者：裴麒琰

问题背景

在使用Verl项目进行Qwen2VL模型的GRPO训练过程中，开发者遇到了一个典型的问题：模型在训练阶段表现正常，但在将保存的分片模型转换为HuggingFace格式后，评估时出现了重复生成"Human"标记的异常行为。这个问题涉及模型训练、保存和转换的完整流程，值得深入分析。

问题现象

训练阶段模型生成内容正常：

The image features a person flying a kite on a beach, with buildings in the background...

转换后评估阶段出现异常：

Human: What is the main subject of the image?
Human: What is the main subject of the image?
Human: What is the main subject of the image?
...

问题排查过程

初步分析

开发者首先确认了训练和评估使用的是相同的输入数据，排除了数据不一致的可能性。通过对比训练和评估两个阶段的输出，初步判断问题可能出现在模型合并环节。

模型合并验证

使用Verl项目提供的model_merger.py脚本将FSDP分片模型合并为HuggingFace格式时，发现合并后的模型行为异常。通过以下步骤进行了验证：

直接使用训练保存的分片模型进行推理，生成结果正常
使用合并后的HuggingFace格式模型进行推理，出现重复标记问题
检查合并后的模型文件，发现部分关键配置文件可能缺失

深入技术分析

进一步分析发现，问题的根本原因在于模型生成配置(generation_config)的差异。当使用from_config从头初始化模型时，生成的默认配置与预训练模型的配置存在显著差异：

预训练模型的generation_config包含：

bos_token_id: 151643
do_sample: true
eos_token_id: [151645, 151643]
pad_token_id: 151643
repetition_penalty: 1.05
temperature: 1e-06

而from_config创建的模型只有基本配置：

bos_token_id: 151643
eos_token_id: 151645

这种差异导致了模型在生成时的异常行为，特别是pad_token_id的设置不正确会严重影响生成质量。

解决方案

临时解决方案

在问题定位过程中，开发者发现了一个有效的临时解决方案：

使用原始预训练模型作为基础
加载训练后的检查点覆盖模型权重
确保使用正确的generation_config

这种方法避免了从头初始化模型时可能丢失重要配置信息的问题。

根本解决方案

经过深入分析，确定了以下根本解决方案：

在模型合并过程中，保留原始预训练模型的generation_config
确保pad_token_id等关键参数正确设置
添加合并后的模型验证步骤

具体实现时，可以手动设置generation_config参数：

generation_config = GenerationConfig(
    bos_token_id=151643,
    do_sample=True,
    eos_token_id=[151645, 151643],
    pad_token_id=151643,
    repetition_penalty=1.05,
    temperature=1e-06
)

经验总结

模型转换过程中，配置信息的完整性至关重要，不能只关注权重参数
生成式模型的behavior受generation_config影响很大，需要特别关注
在模型训练和转换流程中，添加验证步骤可以及早发现问题
对于视觉-语言多模态模型，配置信息的处理需要更加谨慎

最佳实践建议

基于此问题的解决经验，建议开发者在处理类似场景时：

始终保留原始预训练模型的完整配置信息
在模型转换后，进行生成质量验证测试
对于关键参数(pad_token_id等)进行双重检查
考虑在训练脚本中添加配置信息的保存和恢复逻辑

通过系统性地解决这个问题，不仅修复了当前项目中的缺陷，也为类似的多模态模型训练和转换流程提供了有价值的参考经验。

verl

verl: Volcano Engine Reinforcement Learning for LLMs

项目地址：https://gitcode.com/GitHub_Trending/ve/verl

登录后查看全文

项目优选

收起

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

307

337

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库，借助众多实用工具类，致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志，异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作，能够满足各种不同的开发需求。

ArkTS

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

微信开发 Java SDK，支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发，记得关注公众号及时接受版本更新信息，以及加入微信群进行深入讨论

Java

829

cherry-studio

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

TypeScript

601

Verl项目中Qwen2VL模型训练后重复生成"Human"标记问题分析与解决方案

问题背景

问题现象

问题排查过程

初步分析

模型合并验证

深入技术分析

解决方案

临时解决方案

根本解决方案

经验总结

最佳实践建议

热门内容推荐

最新内容推荐

项目优选

Verl项目中Qwen2VL模型训练后重复生成"Human"标记问题分析与解决方案

问题背景

问题现象

问题排查过程

初步分析

模型合并验证

深入技术分析

解决方案

临时解决方案

根本解决方案

经验总结

最佳实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选