OpenDILab/PPOxFamily 项目中的 Pop-Art 算法实现解析

2026-02-04 04:56:19作者：俞予舒Fleming

什么是 Pop-Art 算法

Pop-Art (Preserving Outputs Precisely while Adaptively Rescaling Targets) 是一种自适应归一化技术，专门用于解决强化学习中奖励值量纲差异大的问题。该算法最早在 DeepMind 的论文中被提出，现已成为处理多量级奖励问题的有效工具。

Pop-Art 包含两个核心组件：

ART (Adaptive Rescaling Targets)：动态调整缩放和平移参数，使返回值得到适当归一化
POP (Preserving Outputs Precisely)：在改变缩放和平移参数时，保持未归一化函数的输出不变

PopArt 模块实现详解

初始化与参数设置

PopArt 类继承自 PyTorch 的 nn.Module，作为网络的最后一层使用。其初始化过程包含几个关键步骤：

def __init__(self, input_features: int, output_features: int, beta: float = 0.5):
    super(PopArt, self).__init__()
    self.beta = beta  # 软更新参数
    self.input_features = input_features
    self.output_features = output_features
    self.weight = nn.Parameter(torch.Tensor(output_features, input_features))
    self.bias = nn.Parameter(torch.Tensor(output_features))
    # 注册归一化参数缓冲区
    self.register_buffer('mu', torch.zeros(output_features, requires_grad=False))
    self.register_buffer('sigma', torch.ones(output_features, requires_grad=False))
    self.register_buffer('v', torch.ones(output_features, requires_grad=False))
    self.reset_parameters()

参数初始化

采用 Kaiming 初始化方法，有效避免深度模型中的梯度消失和爆炸问题：

def reset_parameters(self):
    nn.init.kaiming_uniform_(self.weight, a=math.sqrt(5))
    if self.bias is not None:
        fan_in, _ = nn.init._calculate_fan_in_and_fan_out(self.weight)
        bound = 1 / math.sqrt(fan_in)
        nn.init.uniform_(self.bias, -bound, bound)

前向传播

前向传播过程同时输出归一化和未归一化的结果：

def forward(self, x: torch.Tensor) -> ttorch.Tensor:
    normalized_output = x.mm(self.weight.t())
    normalized_output += self.bias.unsqueeze(0).expand_as(normalized_output)
    with torch.no_grad():
        output = normalized_output * self.sigma + self.mu
    return ttorch.as_tensor({'output': output, 'normalized_output': normalized_output})

参数更新机制

Pop-Art 的核心在于其参数更新算法：

def update_parameters(self, value: torch.Tensor) -> ttorch.Tensor:
    # 计算批次统计量
    batch_mean = torch.mean(value, 0)
    batch_v = torch.mean(torch.pow(value, 2), 0)
    
    # 软更新归一化参数
    batch_mean = (1 - self.beta) * self.mu + self.beta * batch_mean
    batch_v = (1 - self.beta) * self.v + self.beta * batch_v
    
    # 计算标准差并裁剪
    batch_std = torch.sqrt(batch_v - (batch_mean ** 2))
    batch_std = torch.clamp(batch_std, min=1e-4, max=1e+6)
    
    # 更新权重和偏置以保持未归一化输出
    self.weight.data = (self.weight.t() * old_std / self.sigma).t()
    self.bias.data = (old_std * self.bias + old_mu - self.mu) / self.sigma

应用示例：MLP 网络与 Pop-Art 结合

网络结构设计

class MLP(nn.Module):
    def __init__(self, obs_shape: int, action_shape: int):
        super(MLP, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(obs_shape + action_shape, 16),
            nn.ReLU(),
            nn.Linear(16, 32),
            nn.ReLU(),
        )
        self.popart = PopArt(32, 1)

训练流程

训练过程中需要注意以下几点：

计算归一化返回值
使用归一化后的值计算损失
更新 Pop-Art 参数

def train(obs_shape: int, action_shape: int, NUM_EPOCH: int, train_data):
    model = MLP(obs_shape, action_shape)
    optimizer = AdamW(model.parameters(), lr=0.0001, weight_decay=0.0001)
    MSEloss = nn.MSELoss()
    
    for epoch in range(NUM_EPOCH):
        for idx, data in enumerate(train_data):
            output = model(data['observations'], data['actions'])
            # 归一化目标返回值
            normalized_return = (data['returns'] - mu) / sigma
            # 计算损失
            loss = MSEloss(output.normalized_output, normalized_return)
            # 反向传播和优化
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            # 更新 Pop-Art 参数
            model.popart.update_parameters(data['returns'])