DI-engine中Hopper-V3环境PPO算法复现问题解析

2025-06-24 00:55:21作者：咎岭娴Homer

问题背景

在强化学习领域，Mujoco的Hopper环境是一个经典的连续控制基准测试环境。许多研究者和开发者会尝试复现PPO算法在该环境中的表现，以验证算法实现或进行后续研究。然而，在使用DI-engine框架复现PPO在Hopper-V3环境中的性能时，可能会遇到一些问题。

配置问题与文档更新

DI-engine框架的文档曾存在链接失效问题，特别是在PPO策略文档部分。这主要是由于配置文件名在两年前发生了变更，导致旧文档中的链接失效。开发团队已经修复了这个问题，确保了文档的准确性。

性能复现问题分析

在尝试使用最新的hopper_onppo_config.py配置文件复现PPO性能时，可能会观察到以下现象：

训练曲线与预期不符
评估回报(reward mean)与评估回合回报(eval_episode_return_mean)数值相同

经过深入分析，发现问题可能源于回报计算的重复处理：

第一次计算发生在mujoco_wrappers.py中，EvalEpisodeReturnWrapper会使用原始回报计算eval_episode_return
第二次计算发生在mujoco_env.py中，在回报可能已经被标准化处理后再次计算

解决方案与验证

为解决这个问题，可以采取以下措施：

移除mujoco_env.py中的第二次回报计算
启用回报标准化处理
设置动作裁剪(action_clip)为True

修改后的配置建议如下：

hopper_onppo_config = dict(
    exp_name='hopper_onppo_envNormalized_seed0',
    env=dict(
        env_id='Hopper-v2',
        norm_obs=dict(use_norm=True),
        norm_reward=dict(use_norm=True, reward_discount=0.99),
        action_clip=True,
        collector_env_num=8,
        evaluator_env_num=10,
        n_evaluator_episode=10,
        use_act_scale=True,
        stop_value=6000,
    ),
    # 其余配置保持不变
)