verl快速开始:五分钟搭建第一个RLHF训练任务
2026-02-04 05:10:48作者:龚格成
还在为大语言模型(LLM)的强化学习人类反馈(RLHF)训练配置复杂而头疼?verl(Volcano Engine Reinforcement Learning)让你在五分钟内快速搭建第一个RLHF训练任务!本文将手把手带你从零开始,使用GSM8K数学数据集训练一个Qwen2.5-0.5B模型。
🚀 什么是verl?
verl是字节跳动Seed团队开源的灵活、高效的LLM强化学习训练库,支持多种RL算法和训练后端:
graph TD
A[verl核心架构] --> B[训练引擎]
A --> C[推理引擎]
A --> D[算法支持]
B --> B1[FSDP]
B --> B2[FSDP2]
B --> B3[Megatron-LM]
C --> C1[vLLM]
C --> C2[SGLang]
C --> C3[HF Transformers]
D --> D1[PPO]
D --> D2[GRPO]
D --> D3[DAPO]
D --> D4[GSPO]
📋 环境准备
硬件要求
- GPU:至少24GB显存(推荐A100 40GB+)
- 内存:32GB+
- 存储:50GB+可用空间
软件要求
- Python 3.10+
- CUDA 12.1+
- Docker(推荐方式)
🐳 快速安装:Docker方式
# 拉取预构建的Docker镜像
docker pull verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2
# 创建并启动容器
docker create --runtime=nvidia --gpus all --net=host --shm-size="10g" \
--cap-add=SYS_ADMIN -v .:/workspace/verl --name verl \
verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2 sleep infinity
docker start verl
docker exec -it verl bash
# 安装verl
git clone https://gitcode.com/GitHub_Trending/ve/verl
cd verl
pip install --no-deps -e .
📊 数据集准备:GSM8K数学推理
GSM8K是一个小学数学应用题数据集,我们需要将其预处理为verl可用的格式:
# 预处理数据集
python3 examples/data_preprocess/gsm8k.py --local_dir ~/data/gsm8k
预处理后的数据结构如下:
{
"data_source": "openai/gsm8k",
"prompt": [
{
"role": "user",
"content": "数学问题 + Let's think step by step and output the final answer after '####'."
}
],
"ability": "math",
"reward_model": {
"style": "rule",
"ground_truth": "正确答案"
},
"extra_info": {
"split": "train/test",
"index": 序号,
"answer": "原始答案",
"question": "原始问题"
}
}
⚙️ 奖励函数设计
verl使用基于规则的奖励函数来评估模型输出:
flowchart TD
A[模型输出] --> B{是否包含####格式答案?}
B -->|是| C[提取最终答案]
B -->|否| D[奖励=0]
C --> E{答案是否正确?}
E -->|是| F[奖励=1]
E -->|否| G[奖励=0]
F --> H[返回奖励值]
G --> H
D --> H
🏃♂️ 启动第一个RLHF训练任务
现在运行你的第一个PPO训练任务:
PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \
data.train_files=$HOME/data/gsm8k/train.parquet \
data.val_files=$HOME/data/gsm8k/test.parquet \
data.train_batch_size=256 \
data.max_prompt_length=512 \
data.max_response_length=256 \
actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.actor.ppo_mini_batch_size=64 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 \
actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=4 \
critic.optim.lr=1e-5 \
critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \
critic.ppo_micro_batch_size_per_gpu=4 \
algorithm.kl_ctrl.kl_coef=0.001 \
trainer.logger=console \
trainer.val_before_train=False \
trainer.n_gpus_per_node=1 \
trainer.nnodes=1 \
trainer.save_freq=10 \
trainer.test_freq=10 \
trainer.total_epochs=15 2>&1 | tee verl_demo.log
📈 关键配置参数说明
| 参数类别 | 关键参数 | 说明 | 推荐值 |
|---|---|---|---|
| 数据配置 | data.train_batch_size | 训练批次大小 | 256 |
| data.max_response_length | 最大响应长度 | 256 | |
| 模型配置 | actor_rollout_ref.model.path | 演员模型路径 | Qwen/Qwen2.5-0.5B-Instruct |
| critic.model.path | 评论家模型路径 | 同演员模型 | |
| 优化器 | actor_rollout_ref.actor.optim.lr | 演员学习率 | 1e-6 |
| critic.optim.lr | 评论家学习率 | 1e-5 | |
| PPO参数 | actor_rollout_ref.actor.ppo_mini_batch_size | PPO小批次大小 | 64 |
| algorithm.kl_ctrl.kl_coef | KL散度系数 | 0.001 | |
| 训练设置 | trainer.n_gpus_per_node | 每节点GPU数 | 1 |
| trainer.total_epochs | 总训练轮数 | 15 |
🔍 训练监控与日志解读
训练开始后,关注以下关键指标:
# 示例日志输出
step:0 - timing/gen:21.470 - timing/ref:4.360 - timing/values:5.800
actor/reward_kl_penalty:0.000 - critic/vf_loss:14.947
critic/vpred_mean:-2.056 - actor/entropy_loss:0.433
critic/score/mean:0.004 - critic/score/max:1.000 - critic/score/min:0.000
关键指标说明:
critic/score/mean:平均奖励分数(0-1之间)actor/entropy_loss:策略熵,衡量探索程度critic/vf_loss:价值函数损失,应逐渐下降timing/gen:生成阶段耗时
💾 模型保存与导出
训练完成后,模型检查点保存在:
checkpoints/${trainer.project_name}/${trainer.experiment_name}
导出为HuggingFace格式:
python3 -m verl.model_merger merge \
--backend fsdp \
--local_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor \
--target_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor/huggingface
🚨 常见问题排查
内存不足问题
# 减少批次大小
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
critic.ppo_micro_batch_size_per_gpu=1 \
模型下载问题
# 使用ModelScope替代HuggingFace
VERL_USE_MODELSCOPE=True
性能优化
# 启用梯度检查点
actor_rollout_ref.model.enable_gradient_checkpointing=True
critic.model.enable_gradient_checkpointing=True
# 启用序列打包(减少padding)
data.use_sequence_packing=True
🎯 进阶功能探索
完成基础训练后,你可以尝试:
- 多轮对话训练:使用SGLang后端支持多轮交互
- 工具调用集成:结合搜索工具和代码执行环境
- 视觉语言模型:训练多模态推理模型
- 分布式训练:扩展到多机多卡环境
📊 训练效果评估
经过15个epoch的训练,你的模型应该在GSM8K测试集上表现出明显的提升:
| 训练阶段 | 准确率 | 奖励均值 | 训练耗时 |
|---|---|---|---|
| 初始模型 | ~10-15% | ~0.1 | - |
| 5 epoch后 | ~25-30% | ~0.3 | ~2小时 |
| 15 epoch后 | ~40-50% | ~0.5 | ~6小时 |
🎉 总结
通过本教程,你已经成功:
- ✅ 搭建了verl训练环境
- ✅ 预处理了GSM8K数据集
- ✅ 配置并启动了第一个PPO训练任务
- ✅ 监控训练过程并理解关键指标
- ✅ 保存和导出训练好的模型
verl的强大之处在于其灵活性和效率,支持多种算法、后端和硬件平台。现在你已经掌握了verl的基础用法,可以进一步探索其高级功能,构建更强大的LLM应用!
下一步建议:尝试使用更大的模型(如Qwen2.5-7B)、更复杂的数据集,或者探索GRPO、DAPO等进阶算法。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust099- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiMo-V2.5-ProMiMo-V2.5-Pro作为旗舰模型,擅⻓处理复杂Agent任务,单次任务可完成近千次⼯具调⽤与⼗余轮上 下⽂压缩。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
项目优选
收起
deepin linux kernel
C
28
16
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
570
99
暂无描述
Dockerfile
709
4.51 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
958
955
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.61 K
942
Ascend Extension for PyTorch
Python
572
694
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
413
339
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
1.42 K
116
暂无简介
Dart
952
235
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
12
2