首页
/ verl快速开始:五分钟搭建第一个RLHF训练任务

verl快速开始:五分钟搭建第一个RLHF训练任务

2026-02-04 05:10:48作者:龚格成

还在为大语言模型(LLM)的强化学习人类反馈(RLHF)训练配置复杂而头疼?verl(Volcano Engine Reinforcement Learning)让你在五分钟内快速搭建第一个RLHF训练任务!本文将手把手带你从零开始,使用GSM8K数学数据集训练一个Qwen2.5-0.5B模型。

🚀 什么是verl?

verl是字节跳动Seed团队开源的灵活、高效的LLM强化学习训练库,支持多种RL算法和训练后端:

graph TD
    A[verl核心架构] --> B[训练引擎]
    A --> C[推理引擎]
    A --> D[算法支持]
    
    B --> B1[FSDP]
    B --> B2[FSDP2]
    B --> B3[Megatron-LM]
    
    C --> C1[vLLM]
    C --> C2[SGLang]
    C --> C3[HF Transformers]
    
    D --> D1[PPO]
    D --> D2[GRPO]
    D --> D3[DAPO]
    D --> D4[GSPO]

📋 环境准备

硬件要求

  • GPU:至少24GB显存(推荐A100 40GB+)
  • 内存:32GB+
  • 存储:50GB+可用空间

软件要求

  • Python 3.10+
  • CUDA 12.1+
  • Docker(推荐方式)

🐳 快速安装:Docker方式

# 拉取预构建的Docker镜像
docker pull verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2

# 创建并启动容器
docker create --runtime=nvidia --gpus all --net=host --shm-size="10g" \
  --cap-add=SYS_ADMIN -v .:/workspace/verl --name verl \
  verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2 sleep infinity
docker start verl
docker exec -it verl bash

# 安装verl
git clone https://gitcode.com/GitHub_Trending/ve/verl
cd verl
pip install --no-deps -e .

📊 数据集准备:GSM8K数学推理

GSM8K是一个小学数学应用题数据集,我们需要将其预处理为verl可用的格式:

# 预处理数据集
python3 examples/data_preprocess/gsm8k.py --local_dir ~/data/gsm8k

预处理后的数据结构如下:

{
    "data_source": "openai/gsm8k",
    "prompt": [
        {
            "role": "user",
            "content": "数学问题 + Let's think step by step and output the final answer after '####'."
        }
    ],
    "ability": "math",
    "reward_model": {
        "style": "rule", 
        "ground_truth": "正确答案"
    },
    "extra_info": {
        "split": "train/test",
        "index": 序号,
        "answer": "原始答案",
        "question": "原始问题"
    }
}

⚙️ 奖励函数设计

verl使用基于规则的奖励函数来评估模型输出:

flowchart TD
    A[模型输出] --> B{是否包含####格式答案?}
    B -->|是| C[提取最终答案]
    B -->|否| D[奖励=0]
    C --> E{答案是否正确?}
    E -->|是| F[奖励=1]
    E -->|否| G[奖励=0]
    F --> H[返回奖励值]
    G --> H
    D --> H

🏃‍♂️ 启动第一个RLHF训练任务

现在运行你的第一个PPO训练任务:

PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \
    data.train_files=$HOME/data/gsm8k/train.parquet \
    data.val_files=$HOME/data/gsm8k/test.parquet \
    data.train_batch_size=256 \
    data.max_prompt_length=512 \
    data.max_response_length=256 \
    actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
    actor_rollout_ref.actor.optim.lr=1e-6 \
    actor_rollout_ref.actor.ppo_mini_batch_size=64 \
    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 \
    actor_rollout_ref.rollout.name=vllm \
    actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 \
    actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
    actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
    actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=4 \
    critic.optim.lr=1e-5 \
    critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \
    critic.ppo_micro_batch_size_per_gpu=4 \
    algorithm.kl_ctrl.kl_coef=0.001 \
    trainer.logger=console \
    trainer.val_before_train=False \
    trainer.n_gpus_per_node=1 \
    trainer.nnodes=1 \
    trainer.save_freq=10 \
    trainer.test_freq=10 \
    trainer.total_epochs=15 2>&1 | tee verl_demo.log

📈 关键配置参数说明

参数类别 关键参数 说明 推荐值
数据配置 data.train_batch_size 训练批次大小 256
data.max_response_length 最大响应长度 256
模型配置 actor_rollout_ref.model.path 演员模型路径 Qwen/Qwen2.5-0.5B-Instruct
critic.model.path 评论家模型路径 同演员模型
优化器 actor_rollout_ref.actor.optim.lr 演员学习率 1e-6
critic.optim.lr 评论家学习率 1e-5
PPO参数 actor_rollout_ref.actor.ppo_mini_batch_size PPO小批次大小 64
algorithm.kl_ctrl.kl_coef KL散度系数 0.001
训练设置 trainer.n_gpus_per_node 每节点GPU数 1
trainer.total_epochs 总训练轮数 15

🔍 训练监控与日志解读

训练开始后,关注以下关键指标:

# 示例日志输出
step:0 - timing/gen:21.470 - timing/ref:4.360 - timing/values:5.800 
actor/reward_kl_penalty:0.000 - critic/vf_loss:14.947 
critic/vpred_mean:-2.056 - actor/entropy_loss:0.433 
critic/score/mean:0.004 - critic/score/max:1.000 - critic/score/min:0.000

关键指标说明:

  • critic/score/mean:平均奖励分数(0-1之间)
  • actor/entropy_loss:策略熵,衡量探索程度
  • critic/vf_loss:价值函数损失,应逐渐下降
  • timing/gen:生成阶段耗时

💾 模型保存与导出

训练完成后,模型检查点保存在:

checkpoints/${trainer.project_name}/${trainer.experiment_name}

导出为HuggingFace格式:

python3 -m verl.model_merger merge \
    --backend fsdp \
    --local_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor \
    --target_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor/huggingface

🚨 常见问题排查

内存不足问题

# 减少批次大小
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
critic.ppo_micro_batch_size_per_gpu=1 \

模型下载问题

# 使用ModelScope替代HuggingFace
VERL_USE_MODELSCOPE=True

性能优化

# 启用梯度检查点
actor_rollout_ref.model.enable_gradient_checkpointing=True
critic.model.enable_gradient_checkpointing=True

# 启用序列打包(减少padding)
data.use_sequence_packing=True

🎯 进阶功能探索

完成基础训练后,你可以尝试:

  1. 多轮对话训练:使用SGLang后端支持多轮交互
  2. 工具调用集成:结合搜索工具和代码执行环境
  3. 视觉语言模型:训练多模态推理模型
  4. 分布式训练:扩展到多机多卡环境

📊 训练效果评估

经过15个epoch的训练,你的模型应该在GSM8K测试集上表现出明显的提升:

训练阶段 准确率 奖励均值 训练耗时
初始模型 ~10-15% ~0.1 -
5 epoch后 ~25-30% ~0.3 ~2小时
15 epoch后 ~40-50% ~0.5 ~6小时

🎉 总结

通过本教程,你已经成功:

  • ✅ 搭建了verl训练环境
  • ✅ 预处理了GSM8K数据集
  • ✅ 配置并启动了第一个PPO训练任务
  • ✅ 监控训练过程并理解关键指标
  • ✅ 保存和导出训练好的模型

verl的强大之处在于其灵活性和效率,支持多种算法、后端和硬件平台。现在你已经掌握了verl的基础用法,可以进一步探索其高级功能,构建更强大的LLM应用!

下一步建议:尝试使用更大的模型(如Qwen2.5-7B)、更复杂的数据集,或者探索GRPO、DAPO等进阶算法。

登录后查看全文
热门项目推荐
相关项目推荐