PFRL: 深度强化学习库的安装与使用指南

2024-08-10 04:08:40作者：温玫谨Lighthearted

一、项目介绍

PFRL（PyTorch based Reinforcement Learning）是基于Python和PyTorch构建的一款深度强化学习库。它旨在提供一系列先进的深度强化学习算法实现，使得研究者和开发者能够更容易地进行模型训练和实验探索。PFRL覆盖了从Atari游戏到连续控制环境如Mujoco的各种任务。

PFRL的核心特性包括：

算法丰富：实现多种流行的深度强化学习算法，例如DQN、PPO、TRPO等。
平台兼容性：支持在CPU和GPU上运行。
异步及同步训练支持：具备异步和同步策略更新机制，以适应不同计算资源需求。
预训练模型：提供了部分环境下的预训练模型，便于快速原型开发或进一步定制化训练。
详尽文档：配有详细的API参考和示例代码，方便新手入门和进阶开发。

二、项目快速启动

安装依赖

确保系统中已安装Python版本至少为3.7.7。其他必要依赖包可通过以下命令自动安装:

pip install -r https://raw.githubusercontent.com/pfnet/pfrl/master/requirements.txt

或者直接通过以下命令安装PFRL及其所需的所有依赖项：

pip install pfrl

第一个程序示例

下面是一个简单的例子，展示了如何使用PFRL来训练一个深度Q网络(DQN)代理解决CartPole环境:

import chainerrl
import gym

env = gym.make('CartPole-v0')
observation_space = env.observation_space.shape[0]
action_size = env.action_space.n

from chainer import Chain
import chainer.functions as F
import chainer.links as L

class QFunction(Chain):

    def __init__(self):
        super(QFunction, self).__init__(
            l0=L.Linear(observation_space, 50),
            l1=L.Linear(50, 50),
            l2=L.Linear(50, action_size)
        )

    def __call__(self, x):
        h = F.relu(self.l0(x))
        h = F.relu(self.l1(h))
        return chainerrl.action_value.DiscreteActionValue(self.l2(h))

q_func = QFunction()
optimizer = chainerrl.optimizers.Adam(alpha=1e-4)
optimizer.setup(q_func)

gamma = 0.95
explorer = chainerrl.explorers.ConstantEpsilonGreedy(
    epsilon=0.3, random_action_func=env.action_space.sample)
replay_buffer = chainerrl.replay_buffer.ReplayBuffer(capacity=10 ** 6)

agent = chainerrl.agents.DoubleDQN(
    q_func, optimizer, replay_buffer, gamma,
    explorer,
    target_update_interval=100,
    update_interval=1,
)

n_episodes = 200
max_episode_len = 200

for i in range(1, n_episodes + 1):
    obs = env.reset()
    reward = 0
    done = False
    R = 0  # return (sum of rewards)
    t = 0  # time step
    while not done and t < max_episode_len:
        # Uncomment to watch the behaviour
        # env.render()

        action = agent.act_and_train(obs, reward)
        obs, reward, done, _ = env.step(action)
        R += reward
        t += 1
    if i % 10 == 0:
        print(f'episode {i} finished, total reward: {R}')
    if t == max_episode_len - 1:
        print("Evaluation episode failed by reaching maximum length!")

print('Training finished.')