OpenRLHF多机多卡环境下VLLM引擎初始化卡死问题分析与解决方案

2025-06-03 13:01:58作者：冯爽妲Honey

问题背景

在OpenRLHF项目中使用Ray框架进行多机多卡训练时，用户报告了一个关键问题：当启用VLLM引擎(vllm_num_engines>0)时，程序会在初始化阶段卡死。这个问题在单机环境下可以正常运行，但在多机环境下就会出现。

这个问题源于PyTorch分布式初始化时的通信机制。在多机环境下，PyTorch的进程组初始化需要满足以下条件：

在OpenRLHF的当前实现中，master_addr和master_port是通过Ray的API动态获取的。在多机环境下，不同节点可能获取到不同的地址信息，导致进程组无法正确建立，从而出现卡死现象。

PyTorch分布式通信支持多种后端(如NCCL、Gloo)和多种初始化方法(如TCP、文件共享等)。在OpenRLHF中，当使用Ray框架在多机上启动VLLM引擎时：

文件共享初始化方法：
- 修改distributed_util.py中的init_process_group函数
- 使用文件共享(file://)方式代替TCP方式
- 需要设置环境变量PYTORCH_ENV_FILE_PATH指向共享文件
- 优点：简单直接
- 缺点：在更大规模(如6机)环境下可能不稳定
环境变量指定法：
- 修改ppo_actor.py中的master_addr和master_port获取方式
- 直接从环境变量MASTER_ADDR和MASTER_PORT获取
- 确保所有节点使用相同的地址和端口
- 优点：稳定性高，适合大规模部署

OpenRLHF在多机多卡环境下VLLM引擎初始化卡死的问题，本质上是PyTorch分布式初始化配置不当导致的通信问题。通过正确配置主节点地址和端口，可以确保分布式训练的正常进行。这个问题也提醒我们，在使用高级框架(Ray)时，仍需关注底层分布式通信的基本原理和配置要求。

登录后查看全文