终极实践指南：使用Stable-Baselines3快速训练月球着陆器智能体

2026-02-06 05:03:54作者：凤尚柏Louis

想要学习深度强化学习，但不知道从何开始？这个完整的教程将带你使用Stable-Baselines3库训练一个能够在月球上安全着陆的智能体！Stable-Baselines3是一个基于PyTorch的强化学习算法库，提供了可靠的实现和简单易用的API。

什么是LunarLander环境？🌛

LunarLander-v2是Gymnasium库中的一个经典强化学习环境。在这个环境中，你需要控制一个月球着陆器，通过调整其水平、垂直速度和角度，让它安全降落在指定区域。

月球着陆器智能体的任务是学习如何适应其速度和位置（水平、垂直和角度）来实现正确着陆。这需要智能体学习平衡推力器的作用，包括：

左方向引擎
主引擎
右方向引擎

环境设置和依赖安装 🔧

首先需要安装必要的依赖包：

apt install swig cmake
pip install -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit1/requirements-unit1.txt

主要依赖包括：

gymnasium[box2d]: 包含LunarLander-v2环境
stable-baselines3[extra]: 深度强化学习库
huggingface_sb3: 用于从Hugging Face Hub加载和上传模型

创建和配置LunarLander环境 🚀

使用Gymnasium创建环境非常简单：

import gymnasium as gym
env = gym.make("LunarLander-v2")

观察空间是一个8维向量，包含：

水平坐标 (x)
垂直坐标 (y)
水平速度 (x)
垂直速度 (y)
角度
角速度
左右腿触地状态

选择PPO算法进行训练 🤖

我们将使用**PPO（Proximal Policy Optimization）**算法，这是目前最先进的深度强化学习算法之一。PPO结合了：

基于价值的强化学习方法：学习动作价值函数
基于策略的强化学习方法：学习策略的概率分布

模型训练步骤详解 🏃

1. 创建向量化环境

from stable_baselines3.common.env_util import make_vec_env
env = make_vec_env("LunarLander-v2", n_envs=16)

2. 配置PPO模型参数

from stable_baselines3 import PPO

model = PPO(
    policy="MlpPolicy",
    env=env,
    n_steps=1024,
    batch_size=64,
    n_epochs=4,
    gamma=0.999,
    gae_lambda=0.98,
    ent_coef=0.01,
    verbose=1
)

3. 开始训练过程

# 训练100万步
model.learn(total_timesteps=1000000)
model.save("ppo-LunarLander-v2")

评估智能体性能 📈

训练完成后，我们需要评估智能体的表现：

from stable_baselines3.common.evaluation import evaluate_policy
from stable_baselines3.common.monitor import Monitor

eval_env = Monitor(gym.make("LunarLander-v2"))
mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
print(f"平均奖励: {mean_reward:.2f} +/- {std_reward}")

成功标准：如果智能体获得至少200分的平均奖励，就认为问题得到了解决！🎯

上传模型到Hugging Face Hub 🔥

训练好的智能体可以轻松上传到Hub：

from huggingface_sb3 import package_to_hub

package_to_hub(
    model=model,
    model_name="ppo-LunarLander-v2",
    model_architecture="PPO",
    env_id="LunarLander-v2",
    repo_id="your_username/ppo-LunarLander-v2",
    commit_message="上传PPO月球着陆器训练智能体"
)