Swift项目中使用GRPO算法训练32B大模型的参数配置指南

2025-05-30 20:27:29作者：宗隆裙

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

在Swift项目中进行大模型训练时，GRPO算法的参数配置是一个需要特别注意的技术环节。本文将以32B参数规模的DeepSeek模型为例，详细介绍如何正确配置GRPO训练参数，避免常见错误，并优化GPU资源利用率。

GRPO训练的基本原理

GRPO（Gradient-based Reinforcement Learning with Policy Optimization）是一种结合了强化学习和策略优化的训练方法。在训练过程中，模型会生成多个响应样本，然后根据奖励函数对这些样本进行评估，最终通过梯度更新来优化模型参数。

关键参数配置要点

1. 批次大小与生成样本数的关系

GRPO训练中，per_device_train_batch_size、gradient_accumulation_steps和num_generations三个参数需要保持特定的数学关系：

有效训练批次大小 = per_device_train_batch_size × gradient_accumulation_steps
有效训练批次大小必须能被num_generations整除

对于32B模型，推荐配置为：

per_device_train_batch_size: 1
gradient_accumulation_steps: 8
num_generations: 8

2. 评估批次设置

评估阶段同样需要注意批次设置，per_device_eval_batch_size必须与num_generations保持整除关系。建议设置为相同数值：

per_device_eval_batch_size = num_generations = 8

3. 多GPU并行配置

为了充分利用多GPU资源，需要注意以下配置：

使用NPROC_PER_NODE指定每台节点的GPU数量
确保tensor_parallel_size与实际的GPU数量匹配
对于32B模型，建议至少使用8块GPU进行训练

典型错误及解决方案

错误1：批次大小不匹配

ValueError: The effective train batch size must be evenly divisible by the number of generations per prompt

解决方案：调整gradient_accumulation_steps使有效批次大小能被num_generations整除。

错误2：评估批次不匹配

ValueError: The effective eval batch size must be evenly divisible by the number of generations per prompt

解决方案：将per_device_eval_batch_size设置为与num_generations相同的值。

错误3：GPU利用率低

现象：只有部分GPU被使用

解决方案：检查NPROC_PER_NODE设置，确保与实际的GPU数量一致，并正确配置tensor_parallel_size。

最佳实践配置示例

以下是一个经过优化的32B模型GRPO训练配置示例：

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
NPROC_PER_NODE=8 \
swift rlhf \
    --rlhf_type grpo \
    --model /DeepSeek_32B \
    --reward_funcs accuracy \
    --system '/grpo/prompt.txt' \
    --use_vllm true \
    --vllm_mode colocate \
    --train_type lora \
    --torch_dtype bfloat16 \
    --dataset AI-MO/NuminaMath-TIR#1000 \
    --output_dir /output \
    --max_completion_length 2080 \
    --num_train_epochs 3 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 8 \
    --learning_rate 5e-6 \
    --gradient_accumulation_steps 8 \
    --num_generations 8 \
    --deepspeed zero3 \
    --beta 0.01