Stable-Baselines3 在自定义Gymnasium环境中的学习问题分析与解决

2025-05-22 22:49:43作者：冯爽妲Honey

问题背景

在使用Stable-Baselines3训练自定义Gymnasium环境时，开发者遇到了一个典型问题：算法似乎无法学习有效的策略。这个自定义环境模拟了一个简单的淋浴温度控制系统，状态空间只有一个温度值，动作空间有三个离散选项（降低、保持或提高温度）。尽管问题看似简单，但A2C、PPO等算法表现不佳，甚至不如随机策略。

环境设计分析

该淋浴环境具有以下特点：

状态空间：单一温度值，初始设计范围为0-100
动作空间：三个离散动作（0=降温，1=保持，2=升温）
奖励机制：温度在37-39度之间时奖励+1，否则-1
随机干扰：每一步有±1度的随机波动
终止条件：60个时间步后终止

问题诊断

经过深入分析，发现几个关键问题点：

状态空间未归一化：原始状态范围0-100对神经网络来说范围过大，可能导致梯度不稳定
环境检查不通过：原始实现返回的观测值不是numpy数组，违反Gymnasium规范
终止与截断处理：虽然在这个简单环境中区别不大，但规范处理有助于其他场景
算法选择不当：对于这种离散动作的简单问题，DQN可能比A2C更合适

解决方案与优化

1. 状态空间归一化

将温度观测值除以37（理想温度范围的上限），使状态值大致在0-2.7范围内，有利于神经网络学习：

self.observation_space = Box(low=np.array([0.0]), high=np.array([100.0/37]))

2. 确保观测格式正确

修改step和reset方法，确保返回的观测值是numpy数组：

def step(self, action):
    # ...原有逻辑...
    return np.array([self.state/37]), reward, terminated, truncated, info

def reset(self, *, seed=None, options=None):
    # ...原有逻辑...
    return np.array([self.state/37]), info

3. 算法选择与超参数调整

对于这类简单离散控制问题，可以尝试：

DQN实现：

from stable_baselines3 import DQN
model = DQN("MlpPolicy", env, verbose=1).learn(100_000)

PPO实现（多环境并行）：

from stable_baselines3 import PPO
from stable_baselines3.common.vec_env import make_vec_env
vec_env = make_vec_env(ShowerEnv, n_envs=4)
model = PPO("MlpPolicy", vec_env, n_epochs=4, verbose=1)
model.learn(200_000)

4. 训练监控与评估

使用内置的回调函数和评估工具监控训练过程：

from stable_baselines3.common.evaluation import evaluate_policy
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=10)
print(f"Mean reward: {mean_reward:.2f} +/- {std_reward:.2f}")