【亲测免费】强化学习算法开源项目推荐

2026-01-29 12:33:42作者：宣聪麟

Popular-RL-Algorithms

PyTorch implementation of Soft Actor-Critic (SAC), Twin Delayed DDPG (TD3), Actor-Critic (AC/A2C), Proximal Policy Optimization (PPO), QT-Opt, PointNet..

项目地址：https://gitcode.com/gh_mirrors/po/Popular-RL-Algorithms

项目基础介绍

本项目是一个开源的强化学习算法仓库，由CSDN公司开发的InsCode AI大模型提供技术支持。项目托管在GitHub上，主要使用Python编程语言实现。该仓库包含了多种流行的无模型强化学习算法的PyTorch版本实现，旨在为研究者和开发者提供一个算法参考和测试的平台。

核心功能

项目的核心功能是提供了一系列先进的强化学习算法的实现，这些算法包括但不限于：

Soft Actor-Critic (SAC)
Twin Delayed DDPG (TD3)
Actor-Critic (AC/A2C)
Proximal Policy Optimization (PPO)
QT-Opt
PointNet
QMIX

这些算法覆盖了连续动作空间和离散动作空间的不同场景，同时也包括了多种变体和改进版本，如带有优先级经验回放（PER）的版本等。

最近更新功能

项目最近的更新包含了对以下功能的增强和改进：

对Soft Actor-Critic (SAC)算法的多个版本进行了实现和优化，包括使用状态值函数和目标Q值函数的不同版本。
对Proximal Policy Optimization (PPO)算法进行了改进，针对连续环境实现了两种版本，并支持了多进程执行。
引入了基于LSTM和GRU的算法变体，如DDPG with LSTM policy (rdpg.py)、TD3 with LSTM policy (td3_lstm.py)、SAC with LSTM policy (sac_v2_lstm.py)等，以增强算法处理序列数据的能力。
实现了基于Soft Decision Tree的函数逼近器，用于在PPO中实现可解释的强化学习（sdt_ppo_gae_discrete.py）。
引入了Probabilistic Mixture-of-Experts (PMOE)方法，该方法使用可微的多模态高斯分布替代标准的单模态高斯分布，以提高深强化学习的效率。

通过这些更新，项目不仅提供了算法的多样性，也促进了强化学习算法在实际应用中的性能提升和功能扩展。

Popular-RL-Algorithms

PyTorch implementation of Soft Actor-Critic (SAC), Twin Delayed DDPG (TD3), Actor-Critic (AC/A2C), Proximal Policy Optimization (PPO), QT-Opt, PointNet..

项目地址：https://gitcode.com/gh_mirrors/po/Popular-RL-Algorithms

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理