verl快速开始：五分钟搭建第一个RLHF训练任务

2026-02-04 05:10:48作者：龚格成

还在为大语言模型（LLM）的强化学习人类反馈（RLHF）训练配置复杂而头疼？verl（Volcano Engine Reinforcement Learning）让你在五分钟内快速搭建第一个RLHF训练任务！本文将手把手带你从零开始，使用GSM8K数学数据集训练一个Qwen2.5-0.5B模型。

🚀 什么是verl？

verl是字节跳动Seed团队开源的灵活、高效的LLM强化学习训练库，支持多种RL算法和训练后端：

graph TD
    A[verl核心架构] --> B[训练引擎]
    A --> C[推理引擎]
    A --> D[算法支持]
    
    B --> B1[FSDP]
    B --> B2[FSDP2]
    B --> B3[Megatron-LM]
    
    C --> C1[vLLM]
    C --> C2[SGLang]
    C --> C3[HF Transformers]
    
    D --> D1[PPO]
    D --> D2[GRPO]
    D --> D3[DAPO]
    D --> D4[GSPO]

📋 环境准备

硬件要求

GPU：至少24GB显存（推荐A100 40GB+）
内存：32GB+
存储：50GB+可用空间

软件要求

Python 3.10+
CUDA 12.1+
Docker（推荐方式）

🐳 快速安装：Docker方式

# 拉取预构建的Docker镜像
docker pull verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2

# 创建并启动容器
docker create --runtime=nvidia --gpus all --net=host --shm-size="10g" \
  --cap-add=SYS_ADMIN -v .:/workspace/verl --name verl \
  verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2 sleep infinity
docker start verl
docker exec -it verl bash

# 安装verl
git clone https://gitcode.com/GitHub_Trending/ve/verl
cd verl
pip install --no-deps -e .

📊 数据集准备：GSM8K数学推理

GSM8K是一个小学数学应用题数据集，我们需要将其预处理为verl可用的格式：

# 预处理数据集
python3 examples/data_preprocess/gsm8k.py --local_dir ~/data/gsm8k

预处理后的数据结构如下：

{
    "data_source": "openai/gsm8k",
    "prompt": [
        {
            "role": "user",
            "content": "数学问题 + Let's think step by step and output the final answer after '####'."
        }
    ],
    "ability": "math",
    "reward_model": {
        "style": "rule", 
        "ground_truth": "正确答案"
    },
    "extra_info": {
        "split": "train/test",
        "index": 序号,
        "answer": "原始答案",
        "question": "原始问题"
    }
}

⚙️ 奖励函数设计

verl使用基于规则的奖励函数来评估模型输出：

flowchart TD
    A[模型输出] --> B{是否包含####格式答案?}
    B -->|是| C[提取最终答案]
    B -->|否| D[奖励=0]
    C --> E{答案是否正确?}
    E -->|是| F[奖励=1]
    E -->|否| G[奖励=0]
    F --> H[返回奖励值]
    G --> H
    D --> H

🏃‍♂️ 启动第一个RLHF训练任务

现在运行你的第一个PPO训练任务：

PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \
    data.train_files=$HOME/data/gsm8k/train.parquet \
    data.val_files=$HOME/data/gsm8k/test.parquet \
    data.train_batch_size=256 \
    data.max_prompt_length=512 \
    data.max_response_length=256 \
    actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
    actor_rollout_ref.actor.optim.lr=1e-6 \
    actor_rollout_ref.actor.ppo_mini_batch_size=64 \
    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 \
    actor_rollout_ref.rollout.name=vllm \
    actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 \
    actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
    actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
    actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=4 \
    critic.optim.lr=1e-5 \
    critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \
    critic.ppo_micro_batch_size_per_gpu=4 \
    algorithm.kl_ctrl.kl_coef=0.001 \
    trainer.logger=console \
    trainer.val_before_train=False \
    trainer.n_gpus_per_node=1 \
    trainer.nnodes=1 \
    trainer.save_freq=10 \
    trainer.test_freq=10 \
    trainer.total_epochs=15 2>&1 | tee verl_demo.log

📈 关键配置参数说明

参数类别	关键参数	说明	推荐值
数据配置	data.train_batch_size	训练批次大小	256
	data.max_response_length	最大响应长度	256
模型配置	actor_rollout_ref.model.path	演员模型路径	Qwen/Qwen2.5-0.5B-Instruct
	critic.model.path	评论家模型路径	同演员模型
优化器	actor_rollout_ref.actor.optim.lr	演员学习率	1e-6
	critic.optim.lr	评论家学习率	1e-5
PPO参数	actor_rollout_ref.actor.ppo_mini_batch_size	PPO小批次大小	64
	algorithm.kl_ctrl.kl_coef	KL散度系数	0.001
训练设置	trainer.n_gpus_per_node	每节点GPU数	1
	trainer.total_epochs	总训练轮数	15

🔍 训练监控与日志解读

训练开始后，关注以下关键指标：

# 示例日志输出
step:0 - timing/gen:21.470 - timing/ref:4.360 - timing/values:5.800 
actor/reward_kl_penalty:0.000 - critic/vf_loss:14.947 
critic/vpred_mean:-2.056 - actor/entropy_loss:0.433 
critic/score/mean:0.004 - critic/score/max:1.000 - critic/score/min:0.000

关键指标说明：

critic/score/mean：平均奖励分数（0-1之间）
actor/entropy_loss：策略熵，衡量探索程度
critic/vf_loss：价值函数损失，应逐渐下降
timing/gen：生成阶段耗时

💾 模型保存与导出

训练完成后，模型检查点保存在：

checkpoints/${trainer.project_name}/${trainer.experiment_name}

导出为HuggingFace格式：

python3 -m verl.model_merger merge \
    --backend fsdp \
    --local_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor \
    --target_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor/huggingface

🚨 常见问题排查

内存不足问题

# 减少批次大小
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
critic.ppo_micro_batch_size_per_gpu=1 \

模型下载问题

# 使用ModelScope替代HuggingFace
VERL_USE_MODELSCOPE=True

性能优化

# 启用梯度检查点
actor_rollout_ref.model.enable_gradient_checkpointing=True
critic.model.enable_gradient_checkpointing=True

# 启用序列打包（减少padding）
data.use_sequence_packing=True