30分钟搭建强化学习开发环境:蘑菇书🍄零基础入门指南
你还在为配置强化学习环境头疼?CUDA版本不匹配、依赖包冲突、代码运行报错?本文将带你30分钟从零搭建稳定的Easy RL开发环境,让你专注于算法学习而非环境调试。读完本文你将获得:
- 适配蘑菇书代码的Python环境配置方案
- GPU/CPU版本PyTorch安装指南
- Jupyter Notebook快速启动方法
- 常见环境问题解决方案
环境准备
系统要求
- 操作系统:Windows/macOS/Linux
- Python版本:3.7(推荐,notebooks/requirements.txt明确依赖)
- 可选GPU:NVIDIA显卡(支持CUDA加速)
安装工具选择
推荐使用Anaconda管理Python环境,可通过官网下载对应系统版本。Anaconda已集成conda包管理器和Python,避免手动配置环境变量。
环境搭建步骤
1. 创建虚拟环境
打开终端(Windows用户建议使用Anaconda Prompt),执行以下命令创建并激活名为joyrl的虚拟环境:
conda create -n joyrl python=3.7
conda activate joyrl
2. 安装核心依赖
环境激活后,通过项目提供的requirements.txt安装基础依赖:
pip install -r notebooks/requirements.txt
文件notebooks/requirements.txt包含以下关键依赖:
matplotlib==3.5.3:用于绘制训练曲线gym==0.25.2:强化学习环境库pandas==1.3.5:数据处理工具torch==1.10.0:深度学习框架
3. 安装PyTorch
根据硬件配置选择合适的安装命令:
CPU版本
conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cpuonly -c pytorch
GPU版本(需提前安装CUDA 11.3)
conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge
国内镜像加速
pip install torch==1.10.0+cu113 torchvision==0.11.0+cu113 torchaudio==0.10.0 --extra-index-url https://download.pytorch.org/whl/cu113
验证环境配置
启动Jupyter Notebook
cd notebooks
jupyter notebook
在浏览器中打开生成的链接,尝试运行示例代码:
- notebooks/DQN.ipynb:深度Q网络实现
- notebooks/PolicyGradient.ipynb:策略梯度算法
测试代码示例
创建测试文件test_env.py,输入以下代码验证Gym环境:
import gym
env = gym.make('CartPole-v1')
observation = env.reset()
for _ in range(1000):
env.render()
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
if done:
observation = env.reset()
env.close()
运行后应能看到CartPole游戏窗口,说明环境配置成功。
常见问题解决
依赖冲突
若出现ImportError,尝试重新安装指定版本:
pip install gym==0.25.2
Jupyter内核问题
python -m ipykernel install --user --name=joyrl
CUDA版本不匹配
通过nvidia-smi查看显卡支持的CUDA版本,选择对应的PyTorch安装命令。
资源获取
- 官方教程:docs/README.md
- 代码仓库:https://gitcode.com/datawhalechina/easy-rl
- 在线阅读:https://datawhalechina.github.io/easy-rl/
提示:环境配置完成后,可开始学习[notebooks/Value Iteration/value_iteration.ipynb](https://gitcode.com/datawhalechina/easy-rl/blob/fc4ece6ee54966f7f293f5b071a61a47dda4cb30/notebooks/Value Iteration/value_iteration.ipynb?utm_source=gitcode_repo_files)中的价值迭代算法,开启强化学习之旅!
如果本文对你有帮助,欢迎点赞、收藏、关注Datawhale社区,获取更多强化学习学习资源!下一期我们将介绍Q-Learning算法的实现与应用。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00