PyTorch强化学习库Cherry：最佳实践指南

2025-05-21 12:22:04作者：滑思眉Philip

1. 项目介绍

Cherry是一个基于PyTorch的开源强化学习库，专为研究人员设计。它不提供现有算法的单一体化接口，而是提供了一系列低级别、通用的工具，以支持研究者编写自己的算法。Cherry遵循UNIX哲学，每个工具都尽可能独立，以便研究者可以根据需要选择使用。

2. 项目快速启动

首先，确保你已经安装了PyTorch。然后，你可以通过pip安装Cherry：

pip install cherry-rl

下面是一个简单的示例，展示如何使用Cherry定义一个策略网络，并进行一次动作的采样：

import torch
from cherry import nn
from cherry.distributions import TanhNormal

# 定义一个策略网络
class VisionPolicy(nn.Policy):
    def __init__(self, feature_extractor, actor):
        super(VisionPolicy, self).__init__()
        self.feature_extractor = feature_extractor
        self.actor = actor
    
    def forward(self, obs):
        mean = self.actor(self.feature_extractor(obs))
        std = 0.1 * torch.ones_like(mean)
        return TanhNormal(mean, std)

# 创建策略实例
policy = VisionPolicy(MyResnetExtractor(), MyMLPActor())

# 采样一个动作
action = policy.act(obs)

确保替换MyResnetExtractor和MyMLPActor为你的特征提取器和演员网络的实际类。

3. 应用案例和最佳实践

定义和采样策略

在Cherry中，定义策略通常涉及创建一个继承自nn.Policy的类。以下是一个定义视觉策略的例子，它使用一个特征提取器和一个演员网络来产生动作：

# ...（省略导入和类定义）

# 使用策略
policy = VisionPolicy(MyResnetExtractor(), MyMLPActor())
obs = env.reset()  # 假设env是环境实例
action = policy.act(obs)

经验回放

Cherry提供了ExperienceReplay类，用于存储和采样过渡。以下是如何使用它的一个例子：

# 创建经验回放对象
replay = cherry.ExperienceReplay()

# 交互环境和策略，存储过渡
for _ in range(1000):
    action = policy.act(state)
    next_state, reward, done, info = env.step(action)
    replay.append(state, action, reward, next_state, done)
    state = next_state

# 从经验回放中采样
batch = replay.sample(32, contiguous=True)

算法设计

Cherry提供了多种工具来帮助设计强化学习算法，如时间差分（TD）学习和策略梯度（PG）方法。以下是一个自定义算法的例子：

from dataclasses import dataclass
import torch.optim as optim

@dataclass
class MyA2C:
    discount: float = 0.99

    def update(self, replay, policy, state_value, optimizer):
        # ...（省略算法实现细节）

# 使用自定义算法
my_a2c = MyA2C(discount=0.95)
# ...（省略其他必要代码）