OpenRLHF项目中PPO训练时的模型并行与显存优化策略

2025-06-03 11:36:06作者：农烁颖Land

A Ray-based High-performance RLHF framework (for large models)

项目地址：https://gitcode.com/gh_mirrors/op/OpenRLHF

模型并行在PPO训练中的应用

在OpenRLHF项目的PPO训练过程中，当使用大型预训练模型(如LLaMA)作为Actor模型时，模型并行技术是解决显存限制的关键。项目采用了DeepSpeed的ZeRO(Zero Redundancy Optimizer)优化策略，特别是ZeRO Stage 3，能够有效地将模型参数、梯度和优化器状态切分到不同的GPU设备上。

ZeRO各阶段的显存优化差异

ZeRO优化策略分为三个阶段，在OpenRLHF项目中：

ZeRO Stage 2：仅对优化器状态和梯度进行切分，模型参数仍完整保存在每张GPU上。此时每张GPU上的显存占用与num_gpus_per_actor设置值成反比，增大该值可以减少单卡显存占用。
ZeRO Stage 3：进一步将模型参数也切分到不同GPU上，实现了完全的模型并行。这是处理超大模型时的推荐配置，可以显著降低单卡显存需求。

资源分配策略分析

OpenRLHF通过Ray框架实现分布式训练，其资源分配机制具有以下特点：

Actor与GPU的映射关系：当前实现中，每个Actor进程会绑定到特定GPU上，且Actor数量不少于总GPU数量。这种设计确保了计算资源的充分利用，但可能不是最节省显存的方式。
placement group策略：使用PlacementGroupSchedulingStrategy确保相关Actor被调度到同一节点上，减少跨节点通信开销。

显存优化建议

对于希望进一步优化显存使用的开发者，可以考虑：

单Actor多GPU模式：理论上可以让单个Actor进程管理多个GPU，但当前实现中每个Actor绑定单GPU的设计更简单可靠。
混合并行策略：结合模型并行(ZeRO-3)与数据并行，在节点内使用模型并行，跨节点使用数据并行。
梯度累积：通过增加梯度累积步数来减少同时驻留在显存中的样本数量。

OpenRLHF项目通过上述技术实现了大规模语言模型的高效PPO训练，开发者可以根据实际硬件条件和模型规模灵活调整并行策略和资源分配参数。

A Ray-based High-performance RLHF framework (for large models)

项目地址：https://gitcode.com/gh_mirrors/op/OpenRLHF

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

cangjie_runtime

仓颉编程语言运行时与标准库。