30分钟搭建强化学习开发环境：蘑菇书🍄零基础入门指南

2026-02-04 04:34:10作者：侯霆垣

你还在为配置强化学习环境头疼？CUDA版本不匹配、依赖包冲突、代码运行报错？本文将带你30分钟从零搭建稳定的Easy RL开发环境，让你专注于算法学习而非环境调试。读完本文你将获得：

适配蘑菇书代码的Python环境配置方案
GPU/CPU版本PyTorch安装指南
Jupyter Notebook快速启动方法
常见环境问题解决方案

环境准备

系统要求

操作系统：Windows/macOS/Linux
Python版本：3.7（推荐，notebooks/requirements.txt明确依赖）
可选GPU：NVIDIA显卡（支持CUDA加速）

安装工具选择

推荐使用Anaconda管理Python环境，可通过官网下载对应系统版本。Anaconda已集成conda包管理器和Python，避免手动配置环境变量。

环境搭建步骤

1. 创建虚拟环境

打开终端（Windows用户建议使用Anaconda Prompt），执行以下命令创建并激活名为joyrl的虚拟环境：

conda create -n joyrl python=3.7
conda activate joyrl

2. 安装核心依赖

环境激活后，通过项目提供的requirements.txt安装基础依赖：

pip install -r notebooks/requirements.txt

文件notebooks/requirements.txt包含以下关键依赖：

matplotlib==3.5.3：用于绘制训练曲线
gym==0.25.2：强化学习环境库
pandas==1.3.5：数据处理工具
torch==1.10.0：深度学习框架

3. 安装PyTorch

根据硬件配置选择合适的安装命令：

CPU版本

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cpuonly -c pytorch

GPU版本（需提前安装CUDA 11.3）

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge

国内镜像加速

pip install torch==1.10.0+cu113 torchvision==0.11.0+cu113 torchaudio==0.10.0 --extra-index-url https://download.pytorch.org/whl/cu113

验证环境配置

启动Jupyter Notebook

cd notebooks
jupyter notebook

在浏览器中打开生成的链接，尝试运行示例代码：

notebooks/DQN.ipynb：深度Q网络实现
notebooks/PolicyGradient.ipynb：策略梯度算法

测试代码示例

创建测试文件test_env.py，输入以下代码验证Gym环境：

import gym
env = gym.make('CartPole-v1')
observation = env.reset()
for _ in range(1000):
    env.render()
    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)
    if done:
        observation = env.reset()
env.close()

运行后应能看到CartPole游戏窗口，说明环境配置成功。

常见问题解决

依赖冲突

若出现ImportError，尝试重新安装指定版本：

pip install gym==0.25.2

Jupyter内核问题

python -m ipykernel install --user --name=joyrl

CUDA版本不匹配

通过nvidia-smi查看显卡支持的CUDA版本，选择对应的PyTorch安装命令。

资源获取

官方教程：docs/README.md
代码仓库：https://gitcode.com/datawhalechina/easy-rl
在线阅读：https://datawhalechina.github.io/easy-rl/

提示：环境配置完成后，可开始学习[notebooks/Value Iteration/value_iteration.ipynb](https://gitcode.com/datawhalechina/easy-rl/blob/fc4ece6ee54966f7f293f5b071a61a47dda4cb30/notebooks/Value Iteration/value_iteration.ipynb?utm_source=gitcode_repo_files)中的价值迭代算法，开启强化学习之旅！

如果本文对你有帮助，欢迎点赞、收藏、关注Datawhale社区，获取更多强化学习学习资源！下一期我们将介绍Q-Learning算法的实现与应用。

easy-rl

强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/

项目地址：https://gitcode.com/datawhalechina/easy-rl

登录后查看全文