TRL v0.18.0发布：强化学习训练库的重大升级

2025-06-02 04:54:21作者：秋泉律Samson

Train transformer language models with reinforcement learning.

项目地址：https://gitcode.com/GitHub_Trending/tr/trl

项目简介

TRL（Transformer Reinforcement Learning）是Hugging Face推出的一个专注于使用强化学习技术训练Transformer模型的Python库。它提供了一系列先进的算法和工具，使研究人员和开发者能够高效地实施和监督强化学习过程，特别适用于大型语言模型（LLM）的微调场景。

核心升级内容

1. GRPO算法的重大改进

本次版本对GRPO（Generalized Reinforcement Learning with Policy Optimization）算法进行了多项重要改进：

PEFT支持：现在GRPO可以无缝集成参数高效微调技术（PEFT），显著降低了微调大型模型时的显存需求。
FSDP支持：新增对完全分片数据并行（FSDP）技术的支持，使模型能够更高效地分布在多个GPU上。
梯度累积优化：解耦了梯度累积与生成的小批量数量之间的关系，提供了更灵活的配置选项。
双面裁剪：实现了双面裁剪技术，可以同时控制策略更新时的上下界，提高了训练稳定性。

2. 训练基础设施增强

FSDP2支持：新增对下一代完全分片数据并行技术FSDP2的支持，进一步优化了大规模分布式训练的效率。
vLLM集成优化：改进了与vLLM推理引擎的协同工作能力，支持在同一GPU上同时运行训练和推理，提高了硬件利用率。
激活检查点：从TorchTune引入了先进的激活检查点技术，有效降低了训练过程中的显存占用。

3. 训练器功能增强

SFTTrainer改进：增加了对填充倍数的支持，优化了内存使用效率；修复了格式化函数与仅完成损失（completion_only_loss）同时使用时的兼容性问题。
DPOTrainer改进：修复了前向传递中的填充问题，确保输入序列正确处理；增加了对长度差异偏好优化（LD-DPO）的支持。
CLI工具增强：改进了命令行界面，使其更好地兼容accelerate参数，提升了用户体验。

技术细节深入

双面裁剪技术的实现

GRPO训练器中新增的双面裁剪功能是一个重要创新。传统PPO算法通常只对优势函数进行单侧裁剪，而双面裁剪则同时控制上下界：

计算原始策略与当前策略的概率比
设置上下裁剪阈值（通常为±ε）
对超出阈值的更新进行裁剪
取裁剪前后的最小值作为最终更新

这种方法可以更精确地控制策略更新的幅度，防止过大的参数变化导致训练不稳定。

激活检查点技术

从TorchTune引入的激活检查点技术通过以下方式优化训练：

在前向传播过程中选择性保存部分激活值
在反向传播时重新计算未保存的激活
显著降低显存占用（通常可减少30-50%）
以额外的计算时间为代价换取更大的批次大小

这项技术特别适合在有限硬件资源上训练超大模型。

vLLM协同训练优化

新版本改进了与vLLM的协同训练机制：

在同一GPU上同时运行训练和推理
通过智能调度避免计算资源冲突
支持kv_cache_dtype参数量化键值缓存
提供base_url参数支持远程vLLM服务

这种设计可以显著提高GPU利用率，特别是在需要频繁生成文本的强化学习场景中。

使用建议

对于不同用户群体，我们建议：

研究人员：

尝试新的双面裁剪GRPO算法，比较其与传统PPO的性能差异
利用激活检查点技术探索更大模型的训练可能性
实验LD-DPO等新引入的算法变体

工程师：

使用更新后的CLI工具简化训练流程
考虑采用vLLM协同训练方案提高硬件利用率
在资源有限的环境中启用PEFT支持

初学者：

从SFTTrainer开始，利用其简化的接口进行模型微调
逐步尝试DPO等相对简单的强化学习算法
利用丰富的日志功能监控训练过程

未来展望

TRL库持续快速发展，本次更新奠定了多个重要技术基础。我们可以预见未来版本可能会：

进一步优化分布式训练性能
引入更多强化学习算法变体
增强与Hugging Face生态其他组件的集成
提供更丰富的示例和教程资源

v0.18.0版本标志着TRL在算法创新、性能优化和易用性方面都迈出了重要一步，为大规模语言模型的强化学习训练提供了更加强大和灵活的工具集。

Train transformer language models with reinforcement learning.

项目地址：https://gitcode.com/GitHub_Trending/tr/trl

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架