RL-Factory 的项目扩展与二次开发

2025-05-26 00:28:13作者：尤辰城Agatha

Train your Agent model via our easy and efficient framework

项目地址：https://gitcode.com/gh_mirrors/rl/RL-Factory

1. 项目的基础介绍

RL-Factory 是一个为 Agentic Learning 设计的简单且高效的 RL（Reinforcement Learning，强化学习）后训练框架。它将环境与 RL 后训练解耦，允许用户仅通过工具配置和奖励函数即可进行训练，同时支持异步工具调用，使得 RL 后训练速度提高2倍。目前版本原生支持一键 DeepSearch 训练，并具备多轮工具调用、模型评判奖励以及多模型训练（包括 Qwen3）等功能。

2. 项目的核心功能

简单易设计的奖励函数：通过规则、模型评判甚至工具来计算奖励，满足各种奖励函数的要求。
无缝工具设置：仅需提供 MCP 工具和自定义工具的配置文件，即可集成到 RL 学习中。
多代理扩展：将代理转换为 MCP 格式，以便轻松实现多代理交互。
高效的工具调用：通过批处理和异步并行工具调用，提高在线 RL 训练的效率。
高效的奖励计算：分布式部署 LRM（如 QwQ-32B）进行高效的模型评判，并使用异步并行加速奖励计算。

3. 项目使用了哪些框架或库？

项目主要使用了以下框架和库：

Python：基础编程语言。
Cuda：用于加速 GPU 计算。
vllm：支持 Qwen3 模型。
accelerate、bitsandbytes、datasets、deepspeed、einops、flash-attn、isort、jsonlines、loralib、optimum、packaging、peft、pynvml、ray、tensorboard、torch、torchmetrics、tqdm、transformers、transformers_stream_generator、wandb：这些库用于支持项目中的各种功能，包括数据处理、模型训练等。

4. 项目的代码目录及介绍

项目的代码目录如下：

assets：存放项目相关资源。
docker：存放 Docker 相关配置。
docs：项目文档。
envs：环境配置相关代码。
examples：示例代码和项目实例。
generator：生成器相关代码。
patches：补丁文件。
rag_server：rag_server 相关代码。
recipe：食谱或配置文件。
scripts：脚本文件。
tests：测试代码。
verl：项目核心代码。
webui：WebUI 相关代码。
workspace/：工作空间目录。
tools/：工具目录。

5. 对项目进行扩展或者二次开发的方向

新增模型支持：扩展框架以支持更多类型的强化学习模型，提高框架的通用性。
增加工具集：集成更多工具，提供更丰富的工具库，以适应不同领域和场景的需求。
优化训练算法：改进现有训练算法，提高训练效率和质量。
WebUI 功能完善：完善 WebUI 功能，提供更友好的用户界面和交互体验。
多语言支持：扩展框架以支持其他编程语言，拓宽用户群体。
社区合作：鼓励和吸引更多开发者参与项目，共同推动项目的发展和完善。

Train your Agent model via our easy and efficient framework

项目地址：https://gitcode.com/gh_mirrors/rl/RL-Factory

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统