模型训练中DeepSpeed Zero 3与Qwen2.5 32B GRPO的兼容性问题分析

2025-05-31 07:28:32作者：平淮齐Percy

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

在模型训练过程中，使用DeepSpeed Zero 3优化策略训练Qwen2.5 32B GRPO模型时，当Beta参数设置为0时会出现特定错误。本文将详细分析这一问题，并提供解决方案。

问题现象

当使用DeepSpeed Zero 3优化策略训练Qwen2.5 32B GRPO模型时，如果Beta参数设置为0，系统会抛出以下错误：

RuntimeError: Inference tensors cannot be saved for backward. To work around you can make a clone to get a normal tensor and use it in autograd.

该错误出现在transformers库的qwen2模型实现代码中，具体位置是modeling_qwen2.py文件的第222行，涉及权重与隐藏状态的乘法操作。

问题分析

错误本质：该错误表明在反向传播过程中，系统无法保存推理张量用于梯度计算。这是DeepSpeed Zero 3特有的行为，与内存优化策略有关。
参数影响：当Beta参数大于0时，训练可以正常进行，这表明问题与GRPO算法的特定参数配置相关。
环境依赖：问题出现在特定版本的软件环境中，包括transformers 4.48.2、vllm 0.7.3等。

解决方案

临时解决方案：
- 使用DeepSpeed Zero 2替代Zero 3，可以避免此问题
- 调整GRPO算法的Beta参数，设置为大于0的值
深入修复：
- 修改zero3的配置文件，调整相关参数
- 确保使用最新版本的deepspeed(0.14.5或更高)
代码层面修改：
- 在模型实现中，对相关张量进行克隆操作，避免直接使用推理张量

最佳实践建议

在训练大型模型前，建议先进行小规模测试，验证不同优化策略的兼容性。
对于Qwen2.5 32B这类大模型，DeepSpeed Zero 2可能是更稳定的选择，虽然内存效率略低于Zero 3。
保持软件环境更新，特别是deepspeed和transformers等核心库。
在遇到类似问题时，可以尝试调整训练参数或优化策略，而不仅仅是解决报错本身。

总结

DeepSpeed Zero 3与Qwen2.5 32B GRPO在特定参数配置下的兼容性问题，反映了大型模型训练中优化策略与模型实现的复杂性。理解这些底层机制有助于开发者更有效地解决训练过程中的各种问题，确保模型训练的顺利进行。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

147

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解