NVIDIA Omniverse Orbit项目中相机与机器人观测数据的处理方案

2025-06-24 14:00:34作者：温玫谨Lighthearted

在机器人强化学习项目中，如何正确处理相机观测数据与机器人本体感知数据的融合是一个关键问题。本文将深入探讨NVIDIA Omniverse Orbit项目中两种不同的工作流（Manager-based和Direct）在处理多模态观测数据时的差异与最佳实践。

多模态观测数据的特点

在机器人抓取任务中，我们通常需要处理两种主要类型的观测数据：

本体感知数据：包括关节位置、速度、末端执行器姿态等
视觉数据：包括RGB图像和深度图像

这些数据在维度、数值范围和语义含义上都有显著差异，需要特殊的网络架构来处理。

Manager-based工作流的局限性

Manager-based工作流虽然提供了模块化的环境配置方式，但在处理复合观测空间时存在明显限制：

观测空间类型受限：仅支持Box类型的观测空间，无法直接支持Dict或Tuple等复合空间类型
数据融合困难：虽然可以通过自定义ObservationCfg类组织观测数据，但底层仍会将所有观测数据拼接为一个扁平向量
网络训练问题：实际训练中可能只优化了部分观测数据（如本体感知数据），而忽略了视觉数据

Direct工作流的优势

Direct工作流为解决这些问题提供了更好的支持：

灵活的空间定义：支持Gymnasium标准的Dict空间，可以明确定义不同模态的观测数据
网络架构适配：可以直接在YAML配置中为不同观测数据指定不同的特征提取器
训练效率提升：实际测试表明，Direct工作流通常能获得更快的训练收敛速度

实际配置示例

以下是一个典型的Direct工作流观测配置示例：

@configclass
class ObservationsCfg:
    @configclass
    class PolicyCfg(ObsGroup):
        joint_pos = ObsTerm(func=mdp.joint_pos_rel)
        joint_vel = ObsTerm(func=mdp.joint_vel_rel)
        camera_rgb = ObsTerm(func=rgb_camera_data)
        camera_depth = ObsTerm(func=depth_camera_data)
        
        def __post_init__(self):
            self.enable_corruption = False
            self.concatenate_terms = False

对应的网络YAML配置应使用Dict空间处理方式：

models:
  policy:
    network:
      - name: visual_encoder
        input: permute(OBSERVATIONS["camera_rgb"], (0, 3, 1, 2))
        layers:
          - conv2d: {out_channels: 32, kernel_size: 8, stride: 4}
          - relu
          - conv2d: {out_channels: 64, kernel_size: 4, stride: 2}
          - relu
          - flatten
          - linear: 256
      - name: proprio_encoder
        input: concatenate([OBSERVATIONS["joint_pos"], OBSERVATIONS["joint_vel"]])
        layers: [64, 64]
      - name: fusion_net
        input: concatenate([visual_encoder, proprio_encoder])
        layers: [128, 128]