Easy-RL项目中连续动作空间的PPO算法解析

2025-05-21 11:50:01作者：龚格成

概述

在强化学习领域，近端策略优化(PPO)算法因其出色的性能和稳定性而广受欢迎。本文将以Easy-RL项目为基础，深入探讨PPO算法在连续动作空间中的应用，并与离散动作空间版本进行对比分析，帮助读者更好地理解两种实现方式的差异。

连续与离散动作空间的本质区别

连续动作空间与离散动作空间在强化学习中的处理方式存在根本性差异：

动作表示：
- 离散空间：动作是有限的、可枚举的类别
- 连续空间：动作是实数值向量，通常有上下界限制
策略输出：
- 离散空间：输出各个动作的概率分布(分类问题)
- 连续空间：输出动作的均值(或参数化分布的其他参数)
探索机制：
- 离散空间：通过概率采样实现探索
- 连续空间：通过参数化分布(如高斯分布)的方差实现探索

PPO在连续动作空间中的实现要点

1. 策略网络设计

在连续动作空间中，策略网络通常输出动作分布的参数。对于最常见的高斯分布，网络会输出：

均值(μ)：表示最可能的动作值
对数标准差(logσ)：控制探索程度，通常独立于状态

class ContinuousPolicyNetwork(nn.Module):
    def __init__(self, state_dim, action_dim):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, 64)
        self.fc2 = nn.Linear(64, 64)
        self.mean = nn.Linear(64, action_dim)
        self.log_std = nn.Parameter(torch.zeros(action_dim))
        
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        mean = torch.tanh(self.mean(x))  # 假设动作在[-1,1]范围内
        return mean

2. 动作采样

与离散空间直接采样不同，连续空间需要从参数化分布中采样：

def sample_action(self, state):
    mean = self.policy_net(state)
    std = torch.exp(self.log_std)
    dist = Normal(mean, std)
    action = dist.sample()
    return action.clamp(-1.0, 1.0)  # 假设动作空间限制在[-1,1]

3. 概率计算

计算动作对数概率是PPO的关键步骤，连续空间使用分布的概率密度函数：

def compute_log_prob(self, state, action):
    mean = self.policy_net(state)
    std = torch.exp(self.log_std)
    dist = Normal(mean, std)
    return dist.log_prob(action).sum(dim=-1)  # 对多维动作求和

4. 价值函数估计

价值函数估计在连续和离散空间中实现方式相似，都是回归问题：

class ValueNetwork(nn.Module):
    def __init__(self, state_dim):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, 1)
        
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        return self.fc3(x)