OpenRLHF项目中大模型分布式训练中的actor_time异常问题分析

2025-06-03 23:54:10作者：凤尚柏Louis

问题背景

在OpenRLHF项目中进行PPO训练时，使用70B参数的Llama2作为actor模型时，发现计算action_log_probs时出现了异常耗时现象。具体表现为actor_time高达150秒，远超出预期范围。通过性能分析工具发现，该问题与分布式环境下的通信开销密切相关。

在分布式训练配置中，当使用以下参数时出现了问题：

性能分析显示，在计算action_log_probs时出现了长达80秒的all_gather通信操作，这直接导致了actor_time的异常升高。

OpenRLHF采用了训练与推理分离的架构设计，其中：

通过深入分析，发现主要的通信开销来自以下几个方面：

参数同步机制：在训练阶段结束后，需要通过all_gather操作将分布在各个GPU上的模型参数收集到rank 0节点，然后再广播给vLLM的所有rank。这一过程在ZeRO Stage 3下尤为耗时。
分布式屏障同步：代码中使用了torch.distributed.barrier()来确保各节点同步，这在不恰当的位置使用会导致额外的等待时间。
Ray框架通信：使用ray.get(llm.generate.remote())进行远程调用时，如果没有适当的同步控制，其通信开销可能被错误计入actor_time中。

在具体实现中，发现以下关键点：

针对这一问题，可以采取以下优化措施：

在大模型分布式训练中，通信开销常常成为性能瓶颈。通过这个案例，我们可以得出以下经验：

这个问题也反映了在大规模分布式训练中，系统级优化与算法优化同等重要。未来在类似项目中，需要在架构设计阶段就充分考虑通信模式对性能的影响。

登录后查看全文