Swift项目中Qwen25VL-72B模型GRPO训练卡顿问题分析与解决方案

2025-05-31 03:11:35作者：邵娇湘

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

问题背景

在Swift项目中使用Qwen25VL-72B大模型进行GRPO训练时，研究人员遇到了训练过程在初始阶段就卡住的问题。该问题出现在8块A100 80GB GPU环境下，采用LoRA微调方式进行训练。

环境配置分析

从训练配置来看，研究人员使用了以下关键参数：

模型：Qwen2.5-VL-72B-Instruct
训练类型：LoRA微调
数据类型：bfloat16
批处理大小：每设备1个样本
梯度累积步数：1
优化器：DeepSpeed Zero3 Offload
并行配置：tensor_parallel_size=8

可能的问题原因

内存不足：72B参数量的模型即使在LoRA微调下也需要大量显存，特别是在多模态场景下，图像处理会额外消耗显存资源。
DeepSpeed配置问题：Zero3 Offload虽然可以节省显存，但不当的配置可能导致通信瓶颈或内存交换效率低下。
vLLM兼容性问题：vLLM 0.7.3版本可能存在与当前模型架构的兼容性问题。
多模态数据处理瓶颈：图像和文本的联合处理可能在某些环节出现阻塞。

解决方案

经过Swift项目团队的验证，以下是针对Qwen25VL-72B模型GRPO训练的最佳实践：

显存优化配置：
- 合理设置vllm_gpu_memory_utilization参数
- 调整max_pixels参数控制图像分辨率
- 使用梯度检查点技术减少显存占用
DeepSpeed优化：
- 调整offload参数平衡计算和内存交换
- 优化move_model_batches参数提升数据交换效率
并行策略优化：
- 根据GPU数量合理设置tensor并行度
- 考虑结合pipeline并行策略
训练参数调整：
- 适当降低初始学习率
- 增加warmup步数
- 调整batch size和梯度累积步数

实施建议

对于希望使用Qwen25VL-72B进行GRPO训练的研究人员，建议：

从官方提供的训练脚本开始，逐步调整参数
监控训练初期的显存使用情况
先在小规模数据上验证训练流程
关注日志中的警告和错误信息
考虑使用更新的vLLM版本以获得更好的兼容性

总结

Qwen25VL-72B作为超大规模多模态模型，其训练过程需要特别注意显存管理和并行策略。通过合理的参数配置和优化技术，可以成功实现GRPO训练。Swift项目团队已经验证了可行的训练方案，研究人员可以参考这些最佳实践来开展相关工作。

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库