verl快速开始:五分钟搭建第一个RLHF训练任务
2026-02-04 05:10:48作者:龚格成
还在为大语言模型(LLM)的强化学习人类反馈(RLHF)训练配置复杂而头疼?verl(Volcano Engine Reinforcement Learning)让你在五分钟内快速搭建第一个RLHF训练任务!本文将手把手带你从零开始,使用GSM8K数学数据集训练一个Qwen2.5-0.5B模型。
🚀 什么是verl?
verl是字节跳动Seed团队开源的灵活、高效的LLM强化学习训练库,支持多种RL算法和训练后端:
graph TD
A[verl核心架构] --> B[训练引擎]
A --> C[推理引擎]
A --> D[算法支持]
B --> B1[FSDP]
B --> B2[FSDP2]
B --> B3[Megatron-LM]
C --> C1[vLLM]
C --> C2[SGLang]
C --> C3[HF Transformers]
D --> D1[PPO]
D --> D2[GRPO]
D --> D3[DAPO]
D --> D4[GSPO]
📋 环境准备
硬件要求
- GPU:至少24GB显存(推荐A100 40GB+)
- 内存:32GB+
- 存储:50GB+可用空间
软件要求
- Python 3.10+
- CUDA 12.1+
- Docker(推荐方式)
🐳 快速安装:Docker方式
# 拉取预构建的Docker镜像
docker pull verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2
# 创建并启动容器
docker create --runtime=nvidia --gpus all --net=host --shm-size="10g" \
--cap-add=SYS_ADMIN -v .:/workspace/verl --name verl \
verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2 sleep infinity
docker start verl
docker exec -it verl bash
# 安装verl
git clone https://gitcode.com/GitHub_Trending/ve/verl
cd verl
pip install --no-deps -e .
📊 数据集准备:GSM8K数学推理
GSM8K是一个小学数学应用题数据集,我们需要将其预处理为verl可用的格式:
# 预处理数据集
python3 examples/data_preprocess/gsm8k.py --local_dir ~/data/gsm8k
预处理后的数据结构如下:
{
"data_source": "openai/gsm8k",
"prompt": [
{
"role": "user",
"content": "数学问题 + Let's think step by step and output the final answer after '####'."
}
],
"ability": "math",
"reward_model": {
"style": "rule",
"ground_truth": "正确答案"
},
"extra_info": {
"split": "train/test",
"index": 序号,
"answer": "原始答案",
"question": "原始问题"
}
}
⚙️ 奖励函数设计
verl使用基于规则的奖励函数来评估模型输出:
flowchart TD
A[模型输出] --> B{是否包含####格式答案?}
B -->|是| C[提取最终答案]
B -->|否| D[奖励=0]
C --> E{答案是否正确?}
E -->|是| F[奖励=1]
E -->|否| G[奖励=0]
F --> H[返回奖励值]
G --> H
D --> H
🏃♂️ 启动第一个RLHF训练任务
现在运行你的第一个PPO训练任务:
PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \
data.train_files=$HOME/data/gsm8k/train.parquet \
data.val_files=$HOME/data/gsm8k/test.parquet \
data.train_batch_size=256 \
data.max_prompt_length=512 \
data.max_response_length=256 \
actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.actor.ppo_mini_batch_size=64 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 \
actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=4 \
critic.optim.lr=1e-5 \
critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \
critic.ppo_micro_batch_size_per_gpu=4 \
algorithm.kl_ctrl.kl_coef=0.001 \
trainer.logger=console \
trainer.val_before_train=False \
trainer.n_gpus_per_node=1 \
trainer.nnodes=1 \
trainer.save_freq=10 \
trainer.test_freq=10 \
trainer.total_epochs=15 2>&1 | tee verl_demo.log
📈 关键配置参数说明
| 参数类别 | 关键参数 | 说明 | 推荐值 |
|---|---|---|---|
| 数据配置 | data.train_batch_size | 训练批次大小 | 256 |
| data.max_response_length | 最大响应长度 | 256 | |
| 模型配置 | actor_rollout_ref.model.path | 演员模型路径 | Qwen/Qwen2.5-0.5B-Instruct |
| critic.model.path | 评论家模型路径 | 同演员模型 | |
| 优化器 | actor_rollout_ref.actor.optim.lr | 演员学习率 | 1e-6 |
| critic.optim.lr | 评论家学习率 | 1e-5 | |
| PPO参数 | actor_rollout_ref.actor.ppo_mini_batch_size | PPO小批次大小 | 64 |
| algorithm.kl_ctrl.kl_coef | KL散度系数 | 0.001 | |
| 训练设置 | trainer.n_gpus_per_node | 每节点GPU数 | 1 |
| trainer.total_epochs | 总训练轮数 | 15 |
🔍 训练监控与日志解读
训练开始后,关注以下关键指标:
# 示例日志输出
step:0 - timing/gen:21.470 - timing/ref:4.360 - timing/values:5.800
actor/reward_kl_penalty:0.000 - critic/vf_loss:14.947
critic/vpred_mean:-2.056 - actor/entropy_loss:0.433
critic/score/mean:0.004 - critic/score/max:1.000 - critic/score/min:0.000
关键指标说明:
critic/score/mean:平均奖励分数(0-1之间)actor/entropy_loss:策略熵,衡量探索程度critic/vf_loss:价值函数损失,应逐渐下降timing/gen:生成阶段耗时
💾 模型保存与导出
训练完成后,模型检查点保存在:
checkpoints/${trainer.project_name}/${trainer.experiment_name}
导出为HuggingFace格式:
python3 -m verl.model_merger merge \
--backend fsdp \
--local_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor \
--target_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor/huggingface
🚨 常见问题排查
内存不足问题
# 减少批次大小
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
critic.ppo_micro_batch_size_per_gpu=1 \
模型下载问题
# 使用ModelScope替代HuggingFace
VERL_USE_MODELSCOPE=True
性能优化
# 启用梯度检查点
actor_rollout_ref.model.enable_gradient_checkpointing=True
critic.model.enable_gradient_checkpointing=True
# 启用序列打包(减少padding)
data.use_sequence_packing=True
🎯 进阶功能探索
完成基础训练后,你可以尝试:
- 多轮对话训练:使用SGLang后端支持多轮交互
- 工具调用集成:结合搜索工具和代码执行环境
- 视觉语言模型:训练多模态推理模型
- 分布式训练:扩展到多机多卡环境
📊 训练效果评估
经过15个epoch的训练,你的模型应该在GSM8K测试集上表现出明显的提升:
| 训练阶段 | 准确率 | 奖励均值 | 训练耗时 |
|---|---|---|---|
| 初始模型 | ~10-15% | ~0.1 | - |
| 5 epoch后 | ~25-30% | ~0.3 | ~2小时 |
| 15 epoch后 | ~40-50% | ~0.5 | ~6小时 |
🎉 总结
通过本教程,你已经成功:
- ✅ 搭建了verl训练环境
- ✅ 预处理了GSM8K数据集
- ✅ 配置并启动了第一个PPO训练任务
- ✅ 监控训练过程并理解关键指标
- ✅ 保存和导出训练好的模型
verl的强大之处在于其灵活性和效率,支持多种算法、后端和硬件平台。现在你已经掌握了verl的基础用法,可以进一步探索其高级功能,构建更强大的LLM应用!
下一步建议:尝试使用更大的模型(如Qwen2.5-7B)、更复杂的数据集,或者探索GRPO、DAPO等进阶算法。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0218
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0139
uni-appA cross-platform framework using Vue.jsJavaScript09
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
项目优选
收起
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
471
465
deepin linux kernel
C
32
16
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
2.09 K
218
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
700
1.4 K
暂无描述
Dockerfile
780
5.08 K
Ascend Extension for PyTorch
Python
758
968
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
880
2.03 K
MindQuantum is a general software library supporting the development of applications for quantum computation.
Python
183
111
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.11 K
682