机器人学习数据集构建指南：从原理到实践的完整路线图

2026-04-28 11:45:48作者：翟萌耘Ralph

1. 数据集构建的3大核心原理

机器人学习数据集是训练智能机器人的"数字教材"，其质量直接决定了机器人的学习效果。构建高质量数据集需要理解三个核心原理：数据异构性、时空一致性和标注准确性。

数据异构性原理

机器人感知世界的方式与人类不同，它通过多种传感器获取信息。一个完整的机器人数据集通常包含：

视觉数据：摄像头拍摄的RGB图像、深度图（如立体相机或ToF传感器获取的距离信息）
状态数据：关节角度（机器人各活动部位的旋转角度）、速度反馈（运动的快慢信息）
控制指令：关节力矩（驱动关节的力量大小）、位姿控制（即机器人末端执行器的位置与姿态调节）

这些不同类型的数据就像机器人的"五感"，需要有机结合才能让机器人全面理解环境。

时空一致性原理

机器人在物理世界中运行，所有数据都与时间和空间紧密关联：

时间维度：每个数据点必须带有精确时间戳，确保动作与观测的同步性
空间维度：多传感器数据需要在同一坐标系下对齐，避免"各说各话"

想象一下，如果机器人的视觉看到物体在左边，而触觉却感觉物体在右边，这种数据不一致会让机器人完全困惑。

标注准确性原理

原始传感器数据就像一本没有注释的书，需要通过标注赋予意义：

任务标签：记录当前执行的任务类型（如抓取、放置、组装）
成功标识：标记任务是否完成以及完成质量
环境参数：记录光照条件、物体材质等环境信息

准确的标注能让机器人学习到正确的因果关系，避免"错误学习"。

图1：机器人学习系统架构示意图，展示了视觉、文本和状态信息如何通过编码和注意力机制转化为机器人动作

2. 数据集构建的4阶段流程

构建机器人学习数据集是一项系统工程，需要遵循科学的流程。我们将其分为四个关键阶段，每个阶段都有明确的目标和操作步骤。

阶段一：数据采集准备（占流程20%）

📌 核心目标：规划数据采集方案，确保数据质量基础

🔍 关键步骤：

任务场景定义
- 明确机器人要完成的具体任务（如"抓取不同形状的物体"）
- 确定环境条件（如光照变化、背景复杂度）
- 设定成功与失败的判定标准
传感器配置
- 选择合适的传感器组合（摄像头、IMU、力传感器等）
- 进行传感器校准，确保数据准确性
- 设置采样频率（视觉通常10-30Hz，关节状态50-100Hz）
采集设备搭建
- 安装数据记录软件（可使用项目提供的lerobot_record.py脚本）
- 测试数据传输带宽和存储能力
- 制定数据备份策略

⚠️ 避坑指南：
不要忽视时间同步问题！不同传感器的时间戳偏差超过100ms会导致数据对齐困难。建议使用硬件触发或精确的软件同步机制。

阶段二：原始数据采集（占流程30%）

📌 核心目标：按计划收集高质量原始数据

🔍 关键步骤：

环境布置
- 清理采集环境中的无关物体
- 放置参考标志物（用于后续数据对齐）
- 记录环境初始状态
多模态数据采集
- 启动所有传感器同步记录
- 执行预设的机器人任务序列
- 记录过程中实时监控数据质量
数据初步筛选
- 剔除明显异常的数据段（如传感器故障）
- 标记每个episode的开始和结束
- 记录采集过程中的特殊事件

图2：机器人数据采集现场，操作员正在控制机械臂执行任务并同步记录数据

阶段三：数据预处理与转换（占流程30%）

📌 核心目标：将原始数据转化为适合模型训练的格式

🔍 关键步骤：

数据清洗
- 填补缺失值（使用线性插值或均值填充）
- 平滑异常跳变（如关节角度的突变）
- 标准化数据范围（如将关节角度转换为[-1, 1]区间）
格式转换
- 选择合适的存储格式（详见3.1格式选型策略）
- 使用项目提供的转换工具（如convert_dataset_v21_to_v30.py）
- 验证转换后数据的完整性
特征提取
- 计算衍生特征（如关节速度、加速度）
- 提取图像特征（如使用预训练模型）
- 降维处理高维数据

阶段四：数据标注与质量验证（占流程20%）

📌 核心目标：为数据添加语义信息并确保质量

🔍 关键步骤：

标注方案设计
- 定义标注类别体系
- 制定标注指南文档
- 设计标注工具界面
标注执行
- 对关键帧进行人工标注
- 使用半自动化工具辅助标注
- 进行标注一致性检查
质量验证
- 计算数据统计特性（均值、方差、分布）
- 可视化检查数据样本
- 执行数据完整性测试

3. 数据集构建的5类实用工具

构建机器人学习数据集需要多种工具的支持，从数据采集到质量验证，每个环节都有专门的工具可以提高效率和质量。

3.1 格式选型策略

选择合适的数据格式是数据集构建的关键决策，不同格式有其适用场景：

格式类型	适用场景	优点	缺点	工具支持
HDF5	大规模数值数据	支持复杂数据结构，压缩效率高	不适合频繁修改	h5py, PyTables
Zarr	高维数组数据	分块存储，支持并行访问	生态相对较小	zarr-python
Parquet	结构化数据	列式存储，查询效率高	不适合非结构化数据	pandas, pyarrow
Pickle	Python对象存储	使用简单，保留对象结构	版本兼容性差	Python标准库

3.2 转换工具对比

LeRobot项目提供了多种数据转换工具，各有特点：

工具名称	功能描述	适用场景	使用难度	性能指标
`convert_dataset_v21_to_v30.py`	版本间格式转换	数据集升级	⭐⭐☆☆☆	处理10GB数据约30分钟
`augment_dataset_quantile_stats.py`	数据增强与统计	训练集扩展	⭐⭐⭐☆☆	支持多线程处理
`lerobot_edit_dataset.py`	数据集编辑与修复	数据清洗	⭐⭐☆☆☆	交互式操作界面
`pipeline_features.py`	特征提取流水线	特征工程	⭐⭐⭐⭐☆	可配置特征提取链

3.3 数据采集工具

核心工具：lerobot_record.py（项目提供的脚本）
- 功能：同步记录多传感器数据
- 使用方法：python src/lerobot/scripts/lerobot_record.py --config <机器人配置文件>
- 主要参数：采样频率、存储路径、日志级别
辅助工具：
- lerobot_find_cameras.py：检测可用摄像头并配置参数
- lerobot_find_joint_limits.py：确定机器人关节运动范围
- lerobot_setup_motors.py：配置电机控制参数

3.4 数据标注工具

半自动标注：lerobot_dataset_viz.py
- 功能：可视化数据集并进行基本标注
- 特点：支持关节角度、物体位置等标注
批量处理：sarm_annotations/subtask_annotation.py
- 功能：为操作任务添加子任务标签
- 应用场景：复杂操作的步骤分解标注

3.5 质量验证工具

统计分析：compute_stats.py
- 功能：计算数据集关键统计指标
- 输出：均值、方差、分位数等分布信息
可视化工具：lerobot_imgtransform_viz.py
- 功能：可视化图像变换效果
- 用途：验证数据增强的合理性
完整性检查：test_datasets.py
- 功能：自动化测试数据集完整性
- 检查项：文件完整性、数据对齐、标注一致性

4. 数据集构建的2个实战案例

理论知识需要通过实践来巩固。以下两个案例展示了数据集构建的实际过程，包括成功经验和失败教训。

4.1 成功案例：协作机械臂抓取数据集

项目背景：构建一个用于训练机械臂协作抓取的数据集，涉及两个机械臂协同完成物体传递任务。

数据采集配置：

硬件：2个SO100机械臂（6自由度），3个RGB-D摄像头
软件：使用lerobot_record.py脚本，采样频率20Hz
场景：3种光照条件，10种不同形状物体，5种传递距离

关键步骤：

设计了标准化的抓取-传递-放置任务流程
使用同步触发确保多摄像头和关节数据的时间对齐
开发了专门的碰撞检测标注工具，标记潜在碰撞风险

成果：

数据集规模：1000个成功episode，500个失败案例
数据质量：关节角度误差<0.5°，时间同步误差<50ms
应用效果：基于该数据集训练的协作控制算法成功率达85%

图3：用于数据采集的SO100协作机械臂系统，两个蓝色机械臂协同完成物体操作任务

4.2 失败案例分析：移动机器人导航数据集

项目背景：构建室内移动机器人导航数据集，包含多种环境和障碍物场景。

问题描述：在数据采集完成后发现，模型在实际导航时经常碰撞障碍物，与训练时的高成功率形成鲜明对比。

原因分析：

数据采集偏差：只在光照良好的环境下采集数据，未考虑昏暗场景
传感器校准问题：激光雷达与视觉传感器未正确校准，导致距离感知偏差
标注错误：将动态障碍物（如行人）标记为静态障碍物

解决方案：

补充采集不同光照条件下的数据，增加数据集多样性
使用lerobot_setup_motors.py重新校准传感器系统
开发动态障碍物追踪标注工具，区分静态和动态障碍物

经验教训：

数据采集必须考虑环境多样性，避免"舒适区偏差"
传感器校准是基础工作，任何时候都不能省略
标注标准需要随着项目进展不断完善，不能一成不变

5. 数据标注实战：从入门到精通

数据标注是赋予原始数据意义的关键步骤，也是最耗费人力的环节之一。有效的标注策略可以大幅提高标注效率和质量。

5.1 标注任务分类

机器人学习数据集常见的标注任务包括：

目标检测标注
- 内容：标记图像中物体的位置和类别
- 工具：项目提供的lerobot_dataset_viz.py
- 应用：物体抓取、避障任务
状态标注
- 内容：记录机器人关节角度、速度等状态
- 工具：自动提取+人工验证
- 应用：运动控制、轨迹规划
任务进度标注
- 内容：标记任务执行阶段和完成度
- 工具：sarm_annotations/subtask_annotation.py
- 应用：复杂操作任务分解