Gymnasium中实现可变维度观测空间的环境设计指南

2025-05-26 06:27:24作者：蔡怀权

观测空间可变性挑战

在强化学习环境设计中，观测空间的维度通常是固定的。然而，某些应用场景需要观测空间的维度能够动态变化，这给环境实现带来了特殊挑战。本文将以Gymnasium项目为例，探讨如何设计一个观测空间维度可变的强化学习环境。

基本实现方案

一个直观的实现方式是直接修改环境的observation_space属性。例如，我们可以创建一个环境类，其观测空间的第一个维度可以随智能体的动作而变化：

class ObsChangeableEnv(gym.Env):
    def __init__(self, obs_dim):
        self.action_space = gym.spaces.Discrete(2)
        self.num_obs = 1
        self.obs_dim = obs_dim
        self.observation_space = gym.spaces.Box(
            low=-1, high=1, 
            shape=(self.num_obs, self.obs_dim), 
            dtype=np.float64
        )
    
    def step(self, action):
        if action == 0 and self.num_obs > 1:
            self.num_obs -= 1
        elif action == 1:
            self.num_obs += 1
        self.observation_space = gym.spaces.Box(
            low=-1, high=1, 
            shape=(self.num_obs, self.obs_dim), 
            dtype=np.float64
        )
        # ...其他步骤逻辑

向量化环境的问题

当尝试使用gym.make_vec将这种环境向量化时，会遇到问题。向量化环境要求所有并行环境的观测空间保持一致，而可变维度观测空间破坏了这一前提条件。

解决方案：使用Sequence空间

Gymnasium提供了Sequence空间类型，专门用于处理可变长度的观测数据。这是解决可变维度观测空间的推荐方案：

Sequence空间特性：
- 可以包含可变数量的子元素
- 每个子元素可以有自己的空间定义
- 自动处理不同长度的观测数据
实现示例：

from gymnasium.spaces import Sequence, Box

class SequenceObsEnv(gym.Env):
    def __init__(self, obs_dim):
        self.action_space = gym.spaces.Discrete(2)
        self.obs_dim = obs_dim
        self.num_obs = 1
        self.observation_space = Sequence(Box(low=-1, high=1, shape=(obs_dim,)))
    
    def get_obs(self):
        return [np.random.uniform(-1, 1, self.obs_dim) for _ in range(self.num_obs)]
    
    def step(self, action):
        # 更新num_obs逻辑...
        return self.get_obs(), 0.0, False, False, {}