verl快速开始:五分钟搭建第一个RLHF训练任务
2026-02-04 05:10:48作者:龚格成
还在为大语言模型(LLM)的强化学习人类反馈(RLHF)训练配置复杂而头疼?verl(Volcano Engine Reinforcement Learning)让你在五分钟内快速搭建第一个RLHF训练任务!本文将手把手带你从零开始,使用GSM8K数学数据集训练一个Qwen2.5-0.5B模型。
🚀 什么是verl?
verl是字节跳动Seed团队开源的灵活、高效的LLM强化学习训练库,支持多种RL算法和训练后端:
graph TD
A[verl核心架构] --> B[训练引擎]
A --> C[推理引擎]
A --> D[算法支持]
B --> B1[FSDP]
B --> B2[FSDP2]
B --> B3[Megatron-LM]
C --> C1[vLLM]
C --> C2[SGLang]
C --> C3[HF Transformers]
D --> D1[PPO]
D --> D2[GRPO]
D --> D3[DAPO]
D --> D4[GSPO]
📋 环境准备
硬件要求
- GPU:至少24GB显存(推荐A100 40GB+)
- 内存:32GB+
- 存储:50GB+可用空间
软件要求
- Python 3.10+
- CUDA 12.1+
- Docker(推荐方式)
🐳 快速安装:Docker方式
# 拉取预构建的Docker镜像
docker pull verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2
# 创建并启动容器
docker create --runtime=nvidia --gpus all --net=host --shm-size="10g" \
--cap-add=SYS_ADMIN -v .:/workspace/verl --name verl \
verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2 sleep infinity
docker start verl
docker exec -it verl bash
# 安装verl
git clone https://gitcode.com/GitHub_Trending/ve/verl
cd verl
pip install --no-deps -e .
📊 数据集准备:GSM8K数学推理
GSM8K是一个小学数学应用题数据集,我们需要将其预处理为verl可用的格式:
# 预处理数据集
python3 examples/data_preprocess/gsm8k.py --local_dir ~/data/gsm8k
预处理后的数据结构如下:
{
"data_source": "openai/gsm8k",
"prompt": [
{
"role": "user",
"content": "数学问题 + Let's think step by step and output the final answer after '####'."
}
],
"ability": "math",
"reward_model": {
"style": "rule",
"ground_truth": "正确答案"
},
"extra_info": {
"split": "train/test",
"index": 序号,
"answer": "原始答案",
"question": "原始问题"
}
}
⚙️ 奖励函数设计
verl使用基于规则的奖励函数来评估模型输出:
flowchart TD
A[模型输出] --> B{是否包含####格式答案?}
B -->|是| C[提取最终答案]
B -->|否| D[奖励=0]
C --> E{答案是否正确?}
E -->|是| F[奖励=1]
E -->|否| G[奖励=0]
F --> H[返回奖励值]
G --> H
D --> H
🏃♂️ 启动第一个RLHF训练任务
现在运行你的第一个PPO训练任务:
PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \
data.train_files=$HOME/data/gsm8k/train.parquet \
data.val_files=$HOME/data/gsm8k/test.parquet \
data.train_batch_size=256 \
data.max_prompt_length=512 \
data.max_response_length=256 \
actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.actor.ppo_mini_batch_size=64 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 \
actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=4 \
critic.optim.lr=1e-5 \
critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \
critic.ppo_micro_batch_size_per_gpu=4 \
algorithm.kl_ctrl.kl_coef=0.001 \
trainer.logger=console \
trainer.val_before_train=False \
trainer.n_gpus_per_node=1 \
trainer.nnodes=1 \
trainer.save_freq=10 \
trainer.test_freq=10 \
trainer.total_epochs=15 2>&1 | tee verl_demo.log
📈 关键配置参数说明
| 参数类别 | 关键参数 | 说明 | 推荐值 |
|---|---|---|---|
| 数据配置 | data.train_batch_size | 训练批次大小 | 256 |
| data.max_response_length | 最大响应长度 | 256 | |
| 模型配置 | actor_rollout_ref.model.path | 演员模型路径 | Qwen/Qwen2.5-0.5B-Instruct |
| critic.model.path | 评论家模型路径 | 同演员模型 | |
| 优化器 | actor_rollout_ref.actor.optim.lr | 演员学习率 | 1e-6 |
| critic.optim.lr | 评论家学习率 | 1e-5 | |
| PPO参数 | actor_rollout_ref.actor.ppo_mini_batch_size | PPO小批次大小 | 64 |
| algorithm.kl_ctrl.kl_coef | KL散度系数 | 0.001 | |
| 训练设置 | trainer.n_gpus_per_node | 每节点GPU数 | 1 |
| trainer.total_epochs | 总训练轮数 | 15 |
🔍 训练监控与日志解读
训练开始后,关注以下关键指标:
# 示例日志输出
step:0 - timing/gen:21.470 - timing/ref:4.360 - timing/values:5.800
actor/reward_kl_penalty:0.000 - critic/vf_loss:14.947
critic/vpred_mean:-2.056 - actor/entropy_loss:0.433
critic/score/mean:0.004 - critic/score/max:1.000 - critic/score/min:0.000
关键指标说明:
critic/score/mean:平均奖励分数(0-1之间)actor/entropy_loss:策略熵,衡量探索程度critic/vf_loss:价值函数损失,应逐渐下降timing/gen:生成阶段耗时
💾 模型保存与导出
训练完成后,模型检查点保存在:
checkpoints/${trainer.project_name}/${trainer.experiment_name}
导出为HuggingFace格式:
python3 -m verl.model_merger merge \
--backend fsdp \
--local_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor \
--target_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor/huggingface
🚨 常见问题排查
内存不足问题
# 减少批次大小
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
critic.ppo_micro_batch_size_per_gpu=1 \
模型下载问题
# 使用ModelScope替代HuggingFace
VERL_USE_MODELSCOPE=True
性能优化
# 启用梯度检查点
actor_rollout_ref.model.enable_gradient_checkpointing=True
critic.model.enable_gradient_checkpointing=True
# 启用序列打包(减少padding)
data.use_sequence_packing=True
🎯 进阶功能探索
完成基础训练后,你可以尝试:
- 多轮对话训练:使用SGLang后端支持多轮交互
- 工具调用集成:结合搜索工具和代码执行环境
- 视觉语言模型:训练多模态推理模型
- 分布式训练:扩展到多机多卡环境
📊 训练效果评估
经过15个epoch的训练,你的模型应该在GSM8K测试集上表现出明显的提升:
| 训练阶段 | 准确率 | 奖励均值 | 训练耗时 |
|---|---|---|---|
| 初始模型 | ~10-15% | ~0.1 | - |
| 5 epoch后 | ~25-30% | ~0.3 | ~2小时 |
| 15 epoch后 | ~40-50% | ~0.5 | ~6小时 |
🎉 总结
通过本教程,你已经成功:
- ✅ 搭建了verl训练环境
- ✅ 预处理了GSM8K数据集
- ✅ 配置并启动了第一个PPO训练任务
- ✅ 监控训练过程并理解关键指标
- ✅ 保存和导出训练好的模型
verl的强大之处在于其灵活性和效率,支持多种算法、后端和硬件平台。现在你已经掌握了verl的基础用法,可以进一步探索其高级功能,构建更强大的LLM应用!
下一步建议:尝试使用更大的模型(如Qwen2.5-7B)、更复杂的数据集,或者探索GRPO、DAPO等进阶算法。
登录后查看全文
热门项目推荐
相关项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
564
3.82 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
892
659
Ascend Extension for PyTorch
Python
375
443
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
348
199
昇腾LLM分布式训练框架
Python
116
145
暂无简介
Dart
795
197
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.36 K
775
openJiuwen agent-studio提供零码、低码可视化开发和工作流编排,模型、知识库、插件等各资源管理能力
TSX
1.12 K
268
React Native鸿蒙化仓库
JavaScript
308
359