PyTorch tutorials强化学习环境：Gym与自定义环境构建

2026-02-05 04:15:16作者：袁立春Spencer

在强化学习（Reinforcement Learning, RL）中，环境（Environment）是智能体（Agent）交互和学习的基础。一个设计良好的环境能够准确模拟问题场景，直接影响训练效果。本文将以PyTorch tutorials项目为基础，详细介绍如何使用OpenAI Gym（健身房）构建标准环境，以及如何根据实际需求创建自定义环境，帮助普通用户和运营人员快速上手强化学习环境搭建。

Gym标准环境快速上手

OpenAI Gym是一个广泛使用的强化学习环境库，提供了丰富的预定义环境，从简单的经典控制问题到复杂的Atari游戏。在PyTorch tutorials项目中，多个案例使用了Gym环境，例如超级马里奥游戏环境。

安装与基本使用

首先需要安装Gym及相关依赖。以超级马里奥环境为例，项目中推荐的安装命令如下：

pip install gym-super-mario-bros==7.4.0
pip install tensordict==0.3.0
pip install torchrl==0.3.0

安装完成后，可以通过简单的代码初始化并与环境交互。以下代码片段来自intermediate_source/mario_rl_tutorial.py，展示了如何创建超级马里奥环境并执行基本动作：

import gym_super_mario_bros
from nes_py.wrappers import JoypadSpace

# 初始化Super Mario环境
env = gym_super_mario_bros.make("SuperMarioBros-1-1-v0", render_mode='rgb', apply_api_compatibility=True)

# 限制动作空间为向右移动和向右跳跃
env = JoypadSpace(env, [["right"], ["right", "A"]])

# 重置环境并获取初始状态
state = env.reset()

# 执行动作（0: 向右移动, 1: 向右跳跃）
next_state, reward, done, trunc, info = env.step(action=0)
print(f"下一个状态形状: {next_state.shape},\n 奖励: {reward},\n 是否完成: {done},\n 信息: {info}")

环境预处理与包装器（Wrappers）

原始环境返回的状态通常包含大量冗余信息，需要进行预处理以提高学习效率。Gym提供了包装器（Wrappers）机制，可以方便地对环境进行扩展和修改。在PyTorch tutorials的马里奥案例中，使用了多个自定义包装器对环境进行预处理，相关代码位于intermediate_source/mario_rl_tutorial.py。

常用的预处理步骤包括：

帧跳过（SkipFrame）：连续帧之间变化不大，跳过中间帧以减少计算量。
灰度转换（GrayScaleObservation）：将RGB图像转换为灰度图，降低维度。
图像缩放（ResizeObservation）：缩小图像尺寸，加快处理速度。
帧堆叠（FrameStack）：将多帧图像堆叠，以捕捉动态信息。

以下是应用这些包装器的代码示例：

class SkipFrame(gym.Wrapper):
    def __init__(self, env, skip):
        super().__init__(env)
        self._skip = skip

    def step(self, action):
        total_reward = 0.0
        for _ in range(self._skip):
            obs, reward, done, trunk, info = self.env.step(action)
            total_reward += reward
            if done:
                break
        return obs, total_reward, done, trunk, info

# 应用包装器
env = SkipFrame(env, skip=4)  # 每4帧取一帧
env = GrayScaleObservation(env)  # 转为灰度图
env = ResizeObservation(env, shape=84)  # 缩放到84x84
env = FrameStack(env, num_stack=4)  # 堆叠4帧

预处理后的状态形状变为[4, 84, 84]，其中4表示堆叠的帧数，84x84是图像的高度和宽度。这种处理大大减少了输入数据的维度，同时保留了学习所需的关键信息。

环境核心组件

一个标准的Gym环境主要包含以下核心组件：

状态空间（Observation Space）：描述环境可能返回的观察状态的范围和类型。例如，马里奥环境的状态空间是一个Box类型，表示连续的数值数组。
动作空间（Action Space）：定义智能体可以执行的动作集合。马里奥环境经过JoypadSpace包装后，动作空间简化为离散的2个动作。
重置函数（reset()）：初始化环境，返回初始状态。
步进函数（step(action)）：执行指定动作，返回下一个状态、奖励、是否结束等信息。

这些组件在intermediate_source/mario_rl_tutorial.py中都有具体体现，是构建和使用Gym环境的基础。

自定义环境构建指南

虽然Gym提供了大量预定义环境，但在实际应用中，我们常常需要根据特定问题创建自定义环境。自定义环境允许我们精确模拟实际场景，提高强化学习模型的实用性。以下将详细介绍如何构建自定义环境，并以项目中的案例说明关键技术点。

自定义环境的基本结构

一个符合Gym规范的自定义环境需要继承gym.Env类，并实现以下核心方法：

__init__：初始化环境参数，定义状态空间和动作空间。
reset：重置环境状态，返回初始观察。
step：执行动作，更新环境状态，返回(next_observation, reward, done, info)。
render（可选）：可视化环境状态。

以下是一个简单的自定义环境框架示例：

import gym
from gym import spaces
import numpy as np

class CustomEnv(gym.Env):
    metadata = {'render.modes': ['human']}

    def __init__(self):
        super(CustomEnv, self).__init__()
        # 定义状态空间（例如：一个4维的连续空间）
        self.observation_space = spaces.Box(low=0, high=255, shape=(4,), dtype=np.uint8)
        # 定义动作空间（例如：2个离散动作）
        self.action_space = spaces.Discrete(2)

    def reset(self):
        # 重置环境，返回初始观察
        self.state = np.zeros(4, dtype=np.uint8)
        return self.state

    def step(self, action):
        # 执行动作，更新状态
        self.state += action  # 简单示例：状态随动作增加
        reward = np.sum(self.state)  # 奖励为状态之和
        done = np.all(self.state >= 10)  # 当状态所有元素都>=10时结束
        info = {}  # 额外信息
        return self.state, reward, done, info

    def render(self, mode='human'):
        # 可视化状态
        print(f"Current State: {self.state}")

这个框架定义了一个简单的自定义环境，展示了核心方法的实现方式。在实际应用中，需要根据具体问题复杂程度调整状态更新逻辑、奖励函数等。

状态空间与动作空间设计

状态空间和动作空间的设计是自定义环境的关键，直接影响智能体的学习难度和效果。

状态空间：应包含环境中所有与决策相关的信息。可以是连续的（Box）、离散的（Discrete）、字典（Dict）或元组（Tuple）类型。例如，在机器人导航环境中，状态空间可能包含机器人的位置、速度和传感器数据。
动作空间：根据问题特性选择离散或连续动作。机械臂控制通常使用连续动作空间，而游戏AI多使用离散动作空间。

在PyTorch tutorials的马里奥案例中，原始状态空间是一个(240, 256, 3)的RGB图像，经过预处理后变为(4, 84, 84)的灰度图像堆叠，如intermediate_source/mario_rl_tutorial.py所示。这种状态空间的设计平衡了信息保留和计算效率。

奖励函数设计

奖励函数是引导智能体学习的关键，直接决定了智能体的行为目标。设计奖励函数时应注意以下几点：

目标对齐：奖励应与最终目标一致。例如，在马里奥游戏中，前进距离远、获得金币应给予正奖励，掉入坑中或时间耗尽给予负奖励。
稀疏性处理：避免过于稀疏的奖励信号，可以添加中间奖励引导学习。例如，在迷宫问题中，向目标移动的每一步都给予小奖励。
稳定性：奖励值应尽量稳定，避免剧烈波动影响训练收敛。

项目中的马里奥环境通过step函数返回奖励，如intermediate_source/mario_rl_tutorial.py所示，奖励综合考虑了前进距离、获得的金币、是否通关等因素，有效引导智能体学习如何通关。

环境包装与扩展

与使用Gym标准环境类似，自定义环境也可以通过包装器进行扩展和增强。常用的包装器功能包括：

状态预处理：如灰度转换、缩放、归一化等，减少噪声和冗余信息。
奖励重塑：调整奖励值的范围或计算方式，提高学习效率。
日志记录：记录每一步的状态、动作、奖励等信息，用于分析和调试。

在intermediate_source/mario_rl_tutorial.py中，SkipFrame、GrayScaleObservation等自定义包装器被用于预处理马里奥环境的状态，这些技术同样适用于自定义环境。以下是一个奖励重塑包装器的示例：

class RewardReshape(gym.RewardWrapper):
    def __init__(self, env):
        super().__init__(env)

    def reward(self, reward):
        # 将奖励值归一化到[-1, 1]范围
        return np.clip(reward, -1, 1)

这个包装器可以应用于任何环境，对奖励进行归一化处理，有助于稳定训练过程。

环境可视化与调试

环境可视化和调试是确保环境正确运行、提高开发效率的重要环节。通过可视化，我们可以直观地观察智能体的行为和环境状态变化；通过调试工具，可以定位环境中的问题，优化环境设计。

环境状态可视化

状态可视化有助于理解智能体看到的信息，验证预处理步骤的正确性。在PyTorch tutorials项目中，提供了马里奥环境状态的可视化示例，如intermediate_source/mario_rl_tutorial.py中提到的状态结构：

这张图片展示了预处理前后的状态对比，左侧是原始RGB图像，右侧是经过灰度转换、缩放和帧堆叠后的状态。通过这种可视化，我们可以清晰地看到预处理对状态的影响。

在自定义环境中，可以使用Matplotlib等工具实时绘制状态图像。例如，对于上述简单的自定义环境，可以添加如下可视化代码：

import matplotlib.pyplot as plt

def render(self, mode='human'):
    if mode == 'human':
        plt.imshow(self.state.reshape(1, -1), cmap='gray')
        plt.title("Custom Env State")
        plt.pause(0.1)  # 暂停0.1秒，显示图像

奖励和动作序列分析

记录和分析奖励和动作序列，可以帮助我们评估环境设计的合理性和智能体的学习进度。在PyTorch tutorials项目中，MetricLogger类用于记录训练过程中的奖励、步数、损失等指标，并生成趋势图，如intermediate_source/mario_rl_tutorial.py所示：

class MetricLogger:
    def __init__(self, save_dir):
        self.ep_rewards = []  # 记录每回合奖励
        self.ep_lengths = []  # 记录每回合步数
        # ... 其他初始化代码

    def record(self, episode, epsilon, step):
        mean_ep_reward = np.round(np.mean(self.ep_rewards[-100:]), 3)
        # ... 计算其他指标并记录
        # 绘制奖励趋势图
        plt.plot(self.moving_avg_ep_rewards, label="moving_avg_ep_rewards")
        plt.savefig(self.ep_rewards_plot)

通过分析这些记录的指标，我们可以判断奖励函数是否有效、训练是否收敛，从而优化环境设计和训练参数。

常见问题与调试技巧

在环境构建过程中，可能会遇到各种问题，以下是一些常见问题和调试技巧：

状态空间不匹配：确保reset和step返回的状态形状与定义的observation_space一致。可以添加断言语句检查：assert self.observation_space.contains(state)。
动作有效性验证：在step函数中检查动作是否在动作空间内，避免无效动作导致错误。
奖励函数调试：单独测试奖励函数，确保在不同状态下能返回预期的奖励值。
性能优化：对于复杂环境，使用C++扩展或多线程处理提高环境运行速度，确保训练效率。