verl快速开始:五分钟搭建第一个RLHF训练任务
2026-02-04 05:10:48作者:龚格成
还在为大语言模型(LLM)的强化学习人类反馈(RLHF)训练配置复杂而头疼?verl(Volcano Engine Reinforcement Learning)让你在五分钟内快速搭建第一个RLHF训练任务!本文将手把手带你从零开始,使用GSM8K数学数据集训练一个Qwen2.5-0.5B模型。
🚀 什么是verl?
verl是字节跳动Seed团队开源的灵活、高效的LLM强化学习训练库,支持多种RL算法和训练后端:
graph TD
A[verl核心架构] --> B[训练引擎]
A --> C[推理引擎]
A --> D[算法支持]
B --> B1[FSDP]
B --> B2[FSDP2]
B --> B3[Megatron-LM]
C --> C1[vLLM]
C --> C2[SGLang]
C --> C3[HF Transformers]
D --> D1[PPO]
D --> D2[GRPO]
D --> D3[DAPO]
D --> D4[GSPO]
📋 环境准备
硬件要求
- GPU:至少24GB显存(推荐A100 40GB+)
- 内存:32GB+
- 存储:50GB+可用空间
软件要求
- Python 3.10+
- CUDA 12.1+
- Docker(推荐方式)
🐳 快速安装:Docker方式
# 拉取预构建的Docker镜像
docker pull verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2
# 创建并启动容器
docker create --runtime=nvidia --gpus all --net=host --shm-size="10g" \
--cap-add=SYS_ADMIN -v .:/workspace/verl --name verl \
verlai/verl:app-verl0.5-transformers4.55.4-vllm0.10.0-mcore0.13.0-te2.2 sleep infinity
docker start verl
docker exec -it verl bash
# 安装verl
git clone https://gitcode.com/GitHub_Trending/ve/verl
cd verl
pip install --no-deps -e .
📊 数据集准备:GSM8K数学推理
GSM8K是一个小学数学应用题数据集,我们需要将其预处理为verl可用的格式:
# 预处理数据集
python3 examples/data_preprocess/gsm8k.py --local_dir ~/data/gsm8k
预处理后的数据结构如下:
{
"data_source": "openai/gsm8k",
"prompt": [
{
"role": "user",
"content": "数学问题 + Let's think step by step and output the final answer after '####'."
}
],
"ability": "math",
"reward_model": {
"style": "rule",
"ground_truth": "正确答案"
},
"extra_info": {
"split": "train/test",
"index": 序号,
"answer": "原始答案",
"question": "原始问题"
}
}
⚙️ 奖励函数设计
verl使用基于规则的奖励函数来评估模型输出:
flowchart TD
A[模型输出] --> B{是否包含####格式答案?}
B -->|是| C[提取最终答案]
B -->|否| D[奖励=0]
C --> E{答案是否正确?}
E -->|是| F[奖励=1]
E -->|否| G[奖励=0]
F --> H[返回奖励值]
G --> H
D --> H
🏃♂️ 启动第一个RLHF训练任务
现在运行你的第一个PPO训练任务:
PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \
data.train_files=$HOME/data/gsm8k/train.parquet \
data.val_files=$HOME/data/gsm8k/test.parquet \
data.train_batch_size=256 \
data.max_prompt_length=512 \
data.max_response_length=256 \
actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.actor.ppo_mini_batch_size=64 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 \
actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=4 \
critic.optim.lr=1e-5 \
critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \
critic.ppo_micro_batch_size_per_gpu=4 \
algorithm.kl_ctrl.kl_coef=0.001 \
trainer.logger=console \
trainer.val_before_train=False \
trainer.n_gpus_per_node=1 \
trainer.nnodes=1 \
trainer.save_freq=10 \
trainer.test_freq=10 \
trainer.total_epochs=15 2>&1 | tee verl_demo.log
📈 关键配置参数说明
| 参数类别 | 关键参数 | 说明 | 推荐值 |
|---|---|---|---|
| 数据配置 | data.train_batch_size | 训练批次大小 | 256 |
| data.max_response_length | 最大响应长度 | 256 | |
| 模型配置 | actor_rollout_ref.model.path | 演员模型路径 | Qwen/Qwen2.5-0.5B-Instruct |
| critic.model.path | 评论家模型路径 | 同演员模型 | |
| 优化器 | actor_rollout_ref.actor.optim.lr | 演员学习率 | 1e-6 |
| critic.optim.lr | 评论家学习率 | 1e-5 | |
| PPO参数 | actor_rollout_ref.actor.ppo_mini_batch_size | PPO小批次大小 | 64 |
| algorithm.kl_ctrl.kl_coef | KL散度系数 | 0.001 | |
| 训练设置 | trainer.n_gpus_per_node | 每节点GPU数 | 1 |
| trainer.total_epochs | 总训练轮数 | 15 |
🔍 训练监控与日志解读
训练开始后,关注以下关键指标:
# 示例日志输出
step:0 - timing/gen:21.470 - timing/ref:4.360 - timing/values:5.800
actor/reward_kl_penalty:0.000 - critic/vf_loss:14.947
critic/vpred_mean:-2.056 - actor/entropy_loss:0.433
critic/score/mean:0.004 - critic/score/max:1.000 - critic/score/min:0.000
关键指标说明:
critic/score/mean:平均奖励分数(0-1之间)actor/entropy_loss:策略熵,衡量探索程度critic/vf_loss:价值函数损失,应逐渐下降timing/gen:生成阶段耗时
💾 模型保存与导出
训练完成后,模型检查点保存在:
checkpoints/${trainer.project_name}/${trainer.experiment_name}
导出为HuggingFace格式:
python3 -m verl.model_merger merge \
--backend fsdp \
--local_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor \
--target_dir checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/global_step_1/actor/huggingface
🚨 常见问题排查
内存不足问题
# 减少批次大小
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
critic.ppo_micro_batch_size_per_gpu=1 \
模型下载问题
# 使用ModelScope替代HuggingFace
VERL_USE_MODELSCOPE=True
性能优化
# 启用梯度检查点
actor_rollout_ref.model.enable_gradient_checkpointing=True
critic.model.enable_gradient_checkpointing=True
# 启用序列打包(减少padding)
data.use_sequence_packing=True
🎯 进阶功能探索
完成基础训练后,你可以尝试:
- 多轮对话训练:使用SGLang后端支持多轮交互
- 工具调用集成:结合搜索工具和代码执行环境
- 视觉语言模型:训练多模态推理模型
- 分布式训练:扩展到多机多卡环境
📊 训练效果评估
经过15个epoch的训练,你的模型应该在GSM8K测试集上表现出明显的提升:
| 训练阶段 | 准确率 | 奖励均值 | 训练耗时 |
|---|---|---|---|
| 初始模型 | ~10-15% | ~0.1 | - |
| 5 epoch后 | ~25-30% | ~0.3 | ~2小时 |
| 15 epoch后 | ~40-50% | ~0.5 | ~6小时 |
🎉 总结
通过本教程,你已经成功:
- ✅ 搭建了verl训练环境
- ✅ 预处理了GSM8K数据集
- ✅ 配置并启动了第一个PPO训练任务
- ✅ 监控训练过程并理解关键指标
- ✅ 保存和导出训练好的模型
verl的强大之处在于其灵活性和效率,支持多种算法、后端和硬件平台。现在你已经掌握了verl的基础用法,可以进一步探索其高级功能,构建更强大的LLM应用!
下一步建议:尝试使用更大的模型(如Qwen2.5-7B)、更复杂的数据集,或者探索GRPO、DAPO等进阶算法。
登录后查看全文
热门项目推荐
相关项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
jiuwenclawJiuwenClaw 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。Python0188- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。01
awesome-zig一个关于 Zig 优秀库及资源的协作列表。Makefile00
热门内容推荐
最新内容推荐
5个实战技巧:用langchaingo构建企业级对话系统的全流程指南解锁模块化编辑:Milkdown框架的可扩展开发指南[技术专题] OpenWeChat消息处理:从核心原理到高级实践Dapr集群部署失败?5步实战指南助你快速定位并解决问题小爱音箱AI升级定制指南:从零开始的设备改造与功能扩展Vanna AI训练数据效率提升实战指南:从数据准备到模型优化全流程解析打造现代界面新范式:Glass Liquid设计理念与实践指南PandaWiki部署实战:从环境准备到系统优化全指南4个步骤掌握Claude AI应用容器化部署:claude-quickstarts项目Docker实践指南4个高效步骤:Pixelle-Video API集成与开发实战指南
项目优选
收起
deepin linux kernel
C
27
12
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
598
4.03 K
Ascend Extension for PyTorch
Python
438
531
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
920
768
暂无简介
Dart
844
204
React Native鸿蒙化仓库
JavaScript
320
374
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
69
21
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.46 K
822
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
368
247
昇腾LLM分布式训练框架
Python
130
156