verl快速开始:五分钟搭建第一个RLHF训练任务
2026-02-04 05:10:48作者:龚格成
还在为大语言模型(LLM)的强化学习人类反馈(RLHF)训练配置复杂而头疼?verl(Volcano Engine Reinforcement Learning)让你在五分钟内快速搭建第一个RLHF训练任务!本文将手把手带你从零开始,使用GSM8K数学数据集训练一个Qwen2.5-0.5B模型。
🚀 什么是verl?
verl是字节跳动Seed团队开源的灵活、高效的LLM强化学习训练库,支持多种RL算法和训练后端:
graph TD
A[verl核心架构] --> B[训练引擎]
A --> C[推理引擎]
A --> D[算法支持]
B --> B1[FSDP]
B --> B2[FSDP2]
B --> B3[Megatron-LM]
C --> C1[vLLM]
C --> C2[SGLang]
C --> C3[HF Transformers]
D --> D1[PPO]
D --> D2[GRPO]
D --> D3[DAPO]
D --> D4[GSPO]
📋 环境准备
硬件要求
- GPU:至少24GB显存(推荐A100 40GB+)
- 内存:32GB+
- 存储:50GB+可用空间
软件要求
- Python 3.10+
- CUDA 12.1+
- Docker(推荐方式)
🐳 快速安装:Docker方式
# 拉取预构建的Docker镜像
docker pull verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2
# 创建并启动容器
docker create --runtime=nvidia --gpus all --net=host --shm-size="10g" \
--cap-add=SYS_ADMIN -v .:/workspace/verl --name verl \
verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2 sleep infinity
docker start verl
docker exec -it verl bash
# 安装verl
git clone https://gitcode.com/GitHub_Trending/ve/verl
cd verl
pip install --no-deps -e .
📊 数据集准备:GSM8K数学推理
GSM8K是一个小学数学应用题数据集,我们需要将其预处理为verl可用的格式:
# 预处理数据集
python3 examples/data_preprocess/gsm8k.py --local_dir ~/data/gsm8k
预处理后的数据结构如下:
{
"data_source": "openai/gsm8k",
"prompt": [
{
"role": "user",
"content": "数学问题 + Let's think step by step and output the final answer after '####'."
}
],
"ability": "math",
"reward_model": {
"style": "rule",
"ground_truth": "正确答案"
},
"extra_info": {
"split": "train/test",
"index": 序号,
"answer": "原始答案",
"question": "原始问题"
}
}
⚙️ 奖励函数设计
verl使用基于规则的奖励函数来评估模型输出:
flowchart TD
A[模型输出] --> B{是否包含####格式答案?}
B -->|是| C[提取最终答案]
B -->|否| D[奖励=0]
C --> E{答案是否正确?}
E -->|是| F[奖励=1]
E -->|否| G[奖励=0]
F --> H[返回奖励值]
G --> H
D --> H
🏃♂️ 启动第一个RLHF训练任务
现在运行你的第一个PPO训练任务:
PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \
data.train_files=$HOME/data/gsm8k/train.parquet \
data.val_files=$HOME/data/gsm8k/test.parquet \
data.train_batch_size=256 \
data.max_prompt_length=512 \
data.max_response_length=256 \
actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.actor.ppo_mini_batch_size=64 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 \
actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=4 \
critic.optim.lr=1e-5 \
critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \
critic.ppo_micro_batch_size_per_gpu=4 \
algorithm.kl_ctrl.kl_coef=0.001 \
trainer.logger=console \
trainer.val_before_train=False \
trainer.n_gpus_per_node=1 \
trainer.nnodes=1 \
trainer.save_freq=10 \
trainer.test_freq=10 \
trainer.total_epochs=15 2>&1 | tee verl_demo.log
📈 关键配置参数说明
| 参数类别 | 关键参数 | 说明 | 推荐值 |
|---|---|---|---|
| 数据配置 | data.train_batch_size | 训练批次大小 | 256 |
| data.max_response_length | 最大响应长度 | 256 | |
| 模型配置 | actor_rollout_ref.model.path | 演员模型路径 | Qwen/Qwen2.5-0.5B-Instruct |
| critic.model.path | 评论家模型路径 | 同演员模型 | |
| 优化器 | actor_rollout_ref.actor.optim.lr | 演员学习率 | 1e-6 |
| critic.optim.lr | 评论家学习率 | 1e-5 | |
| PPO参数 | actor_rollout_ref.actor.ppo_mini_batch_size | PPO小批次大小 | 64 |
| algorithm.kl_ctrl.kl_coef | KL散度系数 | 0.001 | |
| 训练设置 | trainer.n_gpus_per_node | 每节点GPU数 | 1 |
| trainer.total_epochs | 总训练轮数 | 15 |
🔍 训练监控与日志解读
训练开始后,关注以下关键指标:
# 示例日志输出
step:0 - timing/gen:21.470 - timing/ref:4.360 - timing/values:5.800
actor/reward_kl_penalty:0.000 - critic/vf_loss:14.947
critic/vpred_mean:-2.056 - actor/entropy_loss:0.433
critic/score/mean:0.004 - critic/score/max:1.000 - critic/score/min:0.000
关键指标说明:
critic/score/mean:平均奖励分数(0-1之间)actor/entropy_loss:策略熵,衡量探索程度critic/vf_loss:价值函数损失,应逐渐下降timing/gen:生成阶段耗时
💾 模型保存与导出
训练完成后,模型检查点保存在:
checkpoints/${trainer.project_name}/${trainer.experiment_name}
导出为HuggingFace格式:
python3 -m verl.model_merger merge \
--backend fsdp \
--local_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor \
--target_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor/huggingface
🚨 常见问题排查
内存不足问题
# 减少批次大小
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
critic.ppo_micro_batch_size_per_gpu=1 \
模型下载问题
# 使用ModelScope替代HuggingFace
VERL_USE_MODELSCOPE=True
性能优化
# 启用梯度检查点
actor_rollout_ref.model.enable_gradient_checkpointing=True
critic.model.enable_gradient_checkpointing=True
# 启用序列打包(减少padding)
data.use_sequence_packing=True
🎯 进阶功能探索
完成基础训练后,你可以尝试:
- 多轮对话训练:使用SGLang后端支持多轮交互
- 工具调用集成:结合搜索工具和代码执行环境
- 视觉语言模型:训练多模态推理模型
- 分布式训练:扩展到多机多卡环境
📊 训练效果评估
经过15个epoch的训练,你的模型应该在GSM8K测试集上表现出明显的提升:
| 训练阶段 | 准确率 | 奖励均值 | 训练耗时 |
|---|---|---|---|
| 初始模型 | ~10-15% | ~0.1 | - |
| 5 epoch后 | ~25-30% | ~0.3 | ~2小时 |
| 15 epoch后 | ~40-50% | ~0.5 | ~6小时 |
🎉 总结
通过本教程,你已经成功:
- ✅ 搭建了verl训练环境
- ✅ 预处理了GSM8K数据集
- ✅ 配置并启动了第一个PPO训练任务
- ✅ 监控训练过程并理解关键指标
- ✅ 保存和导出训练好的模型
verl的强大之处在于其灵活性和效率,支持多种算法、后端和硬件平台。现在你已经掌握了verl的基础用法,可以进一步探索其高级功能,构建更强大的LLM应用!
下一步建议:尝试使用更大的模型(如Qwen2.5-7B)、更复杂的数据集,或者探索GRPO、DAPO等进阶算法。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0153- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112
项目优选
收起
暂无描述
Dockerfile
733
4.75 K
deepin linux kernel
C
31
16
Ascend Extension for PyTorch
Python
651
797
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.25 K
153
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.1 K
611
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.01 K
1.01 K
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
147
237
昇腾LLM分布式训练框架
Python
168
200
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
434
395
暂无简介
Dart
986
253