首页
/ Gymnasium v1.1.0 版本发布:强化学习工具库的重大更新

Gymnasium v1.1.0 版本发布:强化学习工具库的重大更新

2025-06-06 19:53:05作者:胡易黎Nicole

Gymnasium 是一个开源的强化学习工具库,作为 OpenAI Gym 的分支项目,它为研究人员和开发者提供了丰富的强化学习环境和工具。该项目专注于提供标准化的环境接口,支持各种强化学习算法的开发和测试。

向量环境自动重置模式的改进

在 Gymnasium v1.0 中,向量环境的实现进行了重大改进,改变了用户与其交互和扩展的方式。v1.1 版本进一步优化了这一功能,为向量环境(SyncVectorEnv 和 AsyncVectorEnv)及其包装器添加了对三种自动重置模式的支持:

  1. next-step 模式:在下一个步骤自动重置终止或截断的子环境
  2. same-step 模式:在同一时间步自动重置终止或截断的子环境
  3. disabled 模式:禁用自动重置功能

开发者可以通过向量环境的元数据 metadata["autoreset_mode"] 来指定使用的自动重置模式,该值应为 gymnasium.vectors.AutoresetMode 枚举类型。这一改进为不同需求的强化学习实验提供了更大的灵活性。

核心功能增强

概率掩码采样

在 v0.25 版本引入空间掩码功能后,v1.1 进一步增加了概率掩码支持。现在开发者可以使用 space.sample(probability=...) 方法为每个样本指定概率分布,这对于输出动作概率分布的强化学习策略特别有用。

MuJoCo 环境渲染增强

MuJoCo 物理引擎环境的渲染功能得到了显著提升。除了原有的 RGB 图像和深度图像渲染外,v1.1 新增了 RGBD 渲染模式,可以同时输出 RGB 和深度图像作为一个整体输出,为基于视觉的强化学习研究提供了更多可能性。

数据类型转换包装器改进

v1.0 中引入的 Jax、Torch 和 Numpy 之间的转换包装器(如 JaxToTorch、JaxToNumpy 等)在 v1.1 中得到了显著增强。这些改进包括:

  • 新增了对渲染功能的支持
  • 实现了完整的 dlpack API 兼容性
  • 优化了不同深度学习框架间数据转换的性能

其他重要改进

包装器功能增强

  • StickyAction 包装器现在可以支持多步重复同一动作
  • TransformObs/Action 向量包装器现在支持单个观测/动作空间参数
  • 改进了 set_wrapper_attr 方法,提供了更灵活的变量更新方式
  • AtariPreprocessing 现在支持非正方形观测

错误修复与稳定性提升

  • 修复了 CarRacing-v3 环境离散动作的问题
  • 修正了 Mujoco 渲染器 RGB 图像倒置的问题
  • 恢复了 Dict 空间中 OrderedDict 的键顺序
  • 改进了 TimeAwareObservation 对无 spec 环境的支持
  • 增强了包装器错误检查机制

开发者体验优化

  • 新增了多个流行的第三方入门教程
  • 更新了奖励缩放包装器的文档
  • 改进了错误提示信息,特别是 MuJoCo 渲染器相关的错误提示
  • 修复了 Blackjack 环境文档中的数值范围错误

Gymnasium v1.1.0 的这些改进显著提升了库的稳定性、功能性和易用性,为强化学习研究和应用开发提供了更加强大的工具支持。特别是对向量环境和数据转换功能的增强,使得大规模并行训练和跨框架实验变得更加便捷。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起