ManiSkill v3.0.0b19 版本发布：机器人操作强化学习框架的重大更新

2025-06-29 04:23:41作者：袁立春Spencer

ManiSkill 是一个开源的机器人操作强化学习框架，专注于为研究人员和开发者提供高质量的仿真环境和基准任务。该项目由 haosulab 团队维护，支持从简单的抓取任务到复杂的多物体操作场景。最新发布的 v3.0.0b19 版本带来了多项重要改进和功能增强，显著提升了框架的性能和易用性。

核心功能升级

本次更新对 pytorch_kinematics 进行了升级，这是 ManiSkill 中用于机器人运动学和动力学计算的核心组件。这一改进使得框架在处理复杂机器人模型时更加高效，特别是在需要大量并行计算的任务中表现更为出色。

对于机器人操作任务而言，精确的运动学和动力学计算至关重要。新版本通过优化底层计算引擎，减少了计算延迟，使得训练过程更加流畅。这对于需要大量环境交互的强化学习算法尤为重要，因为更快的仿真速度意味着可以在相同时间内进行更多的训练迭代。

v3.0.0b19 版本修复了 CPU 仿真速度缓慢的问题，并优化了 CPU 仿真基准测试代码。这些改进使得在没有 GPU 加速的情况下，用户仍然可以获得可接受的仿真性能。具体优化包括：

这些改进使得 ManiSkill 在资源受限的环境中也能表现出色，扩大了框架的适用范围。

新版本对 YCB (Yale-CMU-Berkeley) 和 RCAD 物体数据集的场景构建器进行了重要更新：

同时，新增的 demo_manual_control 功能允许用户直接通过键盘或游戏手柄控制机器人，这对于调试和演示场景特别有用。用户可以通过手动控制来快速验证环境设置是否正确，或者直观地理解任务的难度和挑战。

v3.0.0b19 引入了全新的 DrawTriangle/SVG 任务，扩展了 ManiSkill 的任务多样性。这个任务要求机器人按照给定的 SVG 路径绘制图形，测试了机器人的精确运动控制能力。该任务的加入为研究连续轨迹规划和精细操作控制提供了新的基准。

新版本增加了基于 RGB 深度感知(RGB-D)的决策变换器(Decision Transformer)基线模型。这个模型结合了视觉观察和深度信息，为视觉强化学习研究提供了新的参考实现。该基线特别适合处理需要结合视觉感知和精确操作的任务场景。

针对 Pick Single YCB 任务，更新了 PPO (Proximal Policy Optimization) 算法的实现。主要改进包括：

这些变化使得 PPO 算法在该任务上的训练更加稳定和高效，为研究人员提供了更好的基准参考。

CUDA 环境下的观测数据问题：修复了在 CUDA 环境下 final_info 中 elapsed_steps 值错误以及 final_observation 不正确的问题，确保了在不同硬件环境下训练的一致性。
智能体位置数据类型问题：修正了智能体 qpos (关节位置) 的数据类型为浮点数，避免了因类型不匹配导致的数值精度问题。
多体角色 CPU 后端崩溃问题：解决了在 CPU 后端处理包含多个刚体的角色时可能发生的崩溃问题，提高了框架的稳定性。
YCB 数据集校验问题：更新了 YCB 数据集的校验和，确保数据下载和加载的可靠性。