MBPO 项目使用教程

2024-09-13 08:37:34作者：鲍丁臣Ursa

1. 项目介绍

MBPO（Model-Based Policy Optimization）是一个基于模型的策略优化算法，旨在通过学习环境的模型来生成额外的训练经验，从而提高强化学习代理的性能。该项目是基于论文《When to Trust Your Model: Model-Based Policy Optimization》的实现，提供了代码以复现实验结果。

2. 项目快速启动

2.1 安装 MuJoCo

首先，确保你已经安装了 MuJoCo 1.50，并将其路径设置为 ~/mujoco/mjpro150。同时，将你的许可证密钥复制到 ~/mujoco/mjkey.txt。

2.2 克隆项目

使用以下命令克隆 MBPO 项目：

git clone --recursive https://github.com/jannerm/mbpo.git

2.3 创建并激活 Conda 环境

进入项目目录并创建 Conda 环境：

cd mbpo
conda env create -f environment/gpu-env.yml
conda activate mbpo

2.4 安装依赖

安装 viskit 和项目依赖：

pip install -e viskit
pip install -e .

2.5 运行示例

使用以下命令运行一个本地示例：

mbpo run_local examples/development --config=examples/config/halfcheetah/0 --gpus=1 --trial-gpus=1

3. 应用案例和最佳实践

3.1 自定义环境

如果你想在不同的环境中运行 MBPO，可以修改提供的模板。你还需要在 mbpo/static 目录下提供环境的终止函数。例如，如果你将文件命名为环境名称的小写版本（如 hopper.py），它将自动被找到。

3.2 日志查看

该项目包含 viskit 作为子模块，你可以使用以下命令查看保存的运行日志：

viskit ~/ray_mbpo --port 6008

3.3 超参数设置

MBPO 的超参数可以通过配置文件进行设置。例如，rollout_schedule 参数定义了模型推演长度的调度，格式为 [start_epoch, end_epoch, start_length, end_length]。以下是一个示例：

'rollout_schedule': [20, 100, 1, 5]

这表示模型推演长度从第 20 轮的 1 线性增加到第 100 轮的 5。

4. 典型生态项目

4.1 Softlearning

MBPO 项目中的软 Actor-Critic 实现来自 Tuomas Haarnoja 和 Kristian Hartikainen 的 Softlearning 代码库。Softlearning 是一个用于连续控制任务的强化学习库，提供了 SAC 等算法的实现。

4.2 PETS

MBPO 的建模代码是基于 Kurtland Chua 的 PETS 实现的轻微修改版本。PETS（Probabilistic Ensembles with Trajectory Sampling）是一个基于模型的强化学习算法，使用概率集成和轨迹采样来提高模型的鲁棒性。

通过结合这些生态项目，MBPO 提供了一个强大的工具集，用于研究和开发基于模型的强化学习算法。

mbpo

Code for the paper "When to Trust Your Model: Model-Based Policy Optimization"

项目地址：https://gitcode.com/gh_mirrors/mb/mbpo

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

986

MBPO 项目使用教程

1. 项目介绍

2. 项目快速启动

2.1 安装 MuJoCo

2.2 克隆项目

2.3 创建并激活 Conda 环境

2.4 安装依赖

2.5 运行示例

3. 应用案例和最佳实践

3.1 自定义环境

3.2 日志查看

3.3 超参数设置

4. 典型生态项目

4.1 Softlearning

4.2 PETS

最新内容推荐

项目优选