首页
/ Gymnasium v1.1.0 版本发布:强化学习工具库的重大更新

Gymnasium v1.1.0 版本发布:强化学习工具库的重大更新

2025-06-06 04:19:31作者:胡易黎Nicole

Gymnasium 是一个开源的强化学习工具库,作为 OpenAI Gym 的分支项目,它为研究人员和开发者提供了丰富的强化学习环境和工具。该项目专注于提供标准化的环境接口,支持各种强化学习算法的开发和测试。

向量环境自动重置模式的改进

在 Gymnasium v1.0 中,向量环境的实现进行了重大改进,改变了用户与其交互和扩展的方式。v1.1 版本进一步优化了这一功能,为向量环境(SyncVectorEnv 和 AsyncVectorEnv)及其包装器添加了对三种自动重置模式的支持:

  1. next-step 模式:在下一个步骤自动重置终止或截断的子环境
  2. same-step 模式:在同一时间步自动重置终止或截断的子环境
  3. disabled 模式:禁用自动重置功能

开发者可以通过向量环境的元数据 metadata["autoreset_mode"] 来指定使用的自动重置模式,该值应为 gymnasium.vectors.AutoresetMode 枚举类型。这一改进为不同需求的强化学习实验提供了更大的灵活性。

核心功能增强

概率掩码采样

在 v0.25 版本引入空间掩码功能后,v1.1 进一步增加了概率掩码支持。现在开发者可以使用 space.sample(probability=...) 方法为每个样本指定概率分布,这对于输出动作概率分布的强化学习策略特别有用。

MuJoCo 环境渲染增强

MuJoCo 物理引擎环境的渲染功能得到了显著提升。除了原有的 RGB 图像和深度图像渲染外,v1.1 新增了 RGBD 渲染模式,可以同时输出 RGB 和深度图像作为一个整体输出,为基于视觉的强化学习研究提供了更多可能性。

数据类型转换包装器改进

v1.0 中引入的 Jax、Torch 和 Numpy 之间的转换包装器(如 JaxToTorch、JaxToNumpy 等)在 v1.1 中得到了显著增强。这些改进包括:

  • 新增了对渲染功能的支持
  • 实现了完整的 dlpack API 兼容性
  • 优化了不同深度学习框架间数据转换的性能

其他重要改进

包装器功能增强

  • StickyAction 包装器现在可以支持多步重复同一动作
  • TransformObs/Action 向量包装器现在支持单个观测/动作空间参数
  • 改进了 set_wrapper_attr 方法,提供了更灵活的变量更新方式
  • AtariPreprocessing 现在支持非正方形观测

错误修复与稳定性提升

  • 修复了 CarRacing-v3 环境离散动作的问题
  • 修正了 Mujoco 渲染器 RGB 图像倒置的问题
  • 恢复了 Dict 空间中 OrderedDict 的键顺序
  • 改进了 TimeAwareObservation 对无 spec 环境的支持
  • 增强了包装器错误检查机制

开发者体验优化

  • 新增了多个流行的第三方入门教程
  • 更新了奖励缩放包装器的文档
  • 改进了错误提示信息,特别是 MuJoCo 渲染器相关的错误提示
  • 修复了 Blackjack 环境文档中的数值范围错误

Gymnasium v1.1.0 的这些改进显著提升了库的稳定性、功能性和易用性,为强化学习研究和应用开发提供了更加强大的工具支持。特别是对向量环境和数据转换功能的增强,使得大规模并行训练和跨框架实验变得更加便捷。

登录后查看全文
热门项目推荐

项目优选

收起
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
53
468
kernelkernel
deepin linux kernel
C
22
5
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
7
0
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
878
517
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
336
1.1 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
180
264
cjoycjoy
一个高性能、可扩展、轻量、省心的仓颉Web框架。Rest, 宏路由,Json, 中间件,参数绑定与校验,文件上传下载,MCP......
Cangjie
87
14
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.08 K
0
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
349
381
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
612
60