5分钟上手大模型强化学习！verl全流程安装指南

2026-02-04 04:16:18作者：曹令琨Iris

你还在为复杂的大模型训练框架配置发愁？还在因环境依赖问题浪费数小时？本文将带你5分钟完成verl（Volcano Engine Reinforcement Learning for LLMs）的安装部署，从环境准备到运行第一个强化学习任务，全程无坑指南让你专注模型训练本身。

安装准备：环境要求速查表

在开始安装前，请确保你的系统满足以下最低要求：

依赖项	版本要求	官方文档
Python	≥ 3.10	安装文档
CUDA	≥ 12.1	NVIDIA CUDA文档
训练后端	FSDP/Megatron-LM（可选）	Megatron Workers
推理引擎	SGLang/vLLM/TGI	SGLang后端

⚠️ 注意：不同推理引擎对PyTorch版本有严格要求，建议优先安装推理框架再配置其他依赖，避免版本冲突。

快速安装：三种方式任你选

1. Docker一键部署（推荐）

verl提供预构建的Docker镜像，包含所有依赖环境，适合快速上手：

# 拉取基础镜像（以v0.5版本为例）
docker pull verlai/verl:base-verl0.5-cu126-cudnn9.8-torch2.7.1-fa2.7.4

# 创建并启动容器
docker create --runtime=nvidia --gpus all --net=host --shm-size="10g" \
  --name verl_container -v $PWD:/workspace/verl verlai/verl:base-verl0.5-cu126-cudnn9.8-torch2.7.1-fa2.7.4 sleep infinity
docker start verl_container
docker exec -it verl_container bash

# 安装verl
git clone https://gitcode.com/GitHub_Trending/ve/verl && cd verl
pip3 install --no-deps -e .

Dockerfile源码：docker/verl0.5-cu126-torch2.7.1-fa2.8.0/Dockerfile.base

2. 自定义环境安装

适合需要灵活配置的开发者，使用官方提供的安装脚本：

# 创建conda环境
conda create -n verl python==3.10 -y
conda activate verl

# 运行安装脚本（支持Megatron可选安装）
git clone https://gitcode.com/GitHub_Trending/ve/verl && cd verl
USE_MEGATRON=1 bash scripts/install_vllm_sglang_mcore.sh

# 安装verl本体
pip install --no-deps -e .

安装脚本源码：scripts/install_vllm_sglang_mcore.sh

3. AMD GPU支持（ROCm平台）

针对MI300等AMD显卡，需使用专用Dockerfile构建：

# 构建镜像
docker build -f docker/Dockerfile.rocm -t verl-rocm .

# 启动容器
docker run --rm -it --device /dev/dri --device /dev/kfd \
  --shm-size 128G -v $PWD:/workspace verl-rocm /bin/bash

AMD配置详情：ROCm Dockerfile

基础使用：训练你的第一个模型

快速启动示例任务

以数学推理任务（GSM8K+MATH数据集）为例，使用GRPO算法训练Qwen2-7B模型：

# 下载示例脚本
cd examples/grpo_trainer

# 运行训练（8卡GPU配置）
bash run_qwen2-7b_math.sh

脚本参数说明：

algorithm.adv_estimator=grpo：指定使用GRPO算法
actor_rollout_ref.model.path=Qwen/Qwen2-7B-Instruct：基础模型路径
data.train_batch_size=1024：训练批次大小
trainer.total_epochs=15：训练轮数

完整示例配置：GRPO训练脚本

训练流程解析

verl的强化学习训练流程包含以下关键步骤：

graph TD
    A[数据准备] --> B[策略模型初始化]
    B --> C[生成rollout样本]
    C --> D[计算奖励分数]
    D --> E[策略更新]
    E --> F{达到训练轮数?}
    F -->|是| G[模型保存]
    F -->|否| C

数据准备：支持Parquet格式数据集，需包含prompt和response字段
Rollout生成：使用vLLM/SGLang引擎高效生成样本
奖励计算：通过Reward Model或人工标注计算奖励
策略更新：支持PPO/GRPO等多种强化学习算法

详细流程文档：PPO代码架构

进阶功能：解锁更多能力

多节点训练配置

当单节点GPU不足时，可通过Ray启动多节点训练：

# 启动head节点
ray start --head --node-ip-address=192.168.1.100

# 其他节点加入集群
ray start --address=192.168.1.100:6379

# 运行多节点训练
bash examples/grpo_trainer/run_qwen3-235b_megatron_96gb.sh

多节点配置示例：SkyPilot示例

性能优化技巧

模型并行：使用actor_rollout_ref.rollout.tensor_model_parallel_size配置TP
内存优化：开启param_offload和optimizer_offload节省显存
混合精度：默认启用bfloat16，可通过model.dtype调整

性能调优指南：性能优化文档

常见问题解决

1. 依赖冲突

症状：安装vLLM后PyTorch版本被降级解决：从源码编译vLLM以适配现有PyTorch：

git clone -b v0.10.0 https://github.com/vllm-project/vllm.git
cd vllm && MAX_JOBS=8 python setup.py install

2. 训练卡顿

症状：GPU利用率波动大，训练速度慢解决：调整微批次大小：

actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=16

完整FAQ：常见问题

总结与下一步

通过本文你已掌握： ✅ verl环境的快速部署方法 ✅ 单节点/多节点训练流程 ✅ 基础参数调优技巧

下一步推荐：

尝试不同算法：算法文档
自定义奖励模型：奖励函数开发
参与社区贡献：贡献指南

📌 提示：定期查看更新日志获取最新功能和bug修复信息。

欢迎在GitHub上给项目点赞收藏，关注后续教程！

verl

verl: Volcano Engine Reinforcement Learning for LLMs

项目地址：https://gitcode.com/GitHub_Trending/ve/verl

登录后查看全文

5分钟上手大模型强化学习！verl全流程安装指南

安装准备：环境要求速查表

快速安装：三种方式任你选

1. Docker一键部署（推荐）

2. 自定义环境安装

3. AMD GPU支持（ROCm平台）

基础使用：训练你的第一个模型

快速启动示例任务

训练流程解析

进阶功能：解锁更多能力

多节点训练配置

性能优化技巧

常见问题解决

1. 依赖冲突

2. 训练卡顿

总结与下一步

热门内容推荐

最新内容推荐

项目优选

5分钟上手大模型强化学习！verl全流程安装指南

安装准备：环境要求速查表

快速安装：三种方式任你选

1. Docker一键部署（推荐）

2. 自定义环境安装

3. AMD GPU支持（ROCm平台）

基础使用：训练你的第一个模型

快速启动示例任务

训练流程解析

进阶功能：解锁更多能力

多节点训练配置

性能优化技巧

常见问题解决

1. 依赖冲突

2. 训练卡顿

总结与下一步

相关内容推荐

热门内容推荐

最新内容推荐

项目优选