LeRobot机器人学习数据集构建指南：从数据采集到模型训练

2026-04-22 09:41:38作者：卓炯娓

数据集质量检查表

在开始数据集构建前，请使用以下检查表确保数据质量基础：

完整性 ✅：所有传感器数据流无中断
同步性 ⏱️：多模态数据时间戳误差<10ms
标注质量 📝：动作指令与观测数据准确对应
多样性 🔄：包含不同环境条件和任务场景
一致性 📊：数据格式和采样频率统一
异常值 ❌：无传感器故障或极端噪声数据

机器人学习数据采集的核心挑战与解决方案

机器人学习系统的性能高度依赖数据质量，而实际环境中的数据采集面临多重挑战：传感器噪声、多模态数据同步、环境干扰等问题都会影响最终模型效果。LeRobot项目通过标准化数据格式和模块化处理流程，为这些挑战提供了系统化解决方案。

多模态数据采集架构

LeRobot采用分层式数据采集架构，确保各类传感器数据的高效整合：

感知层：多摄像头图像、深度图、激光雷达点云
状态层：关节角度、速度、力矩反馈
控制层：执行器指令、轨迹规划数据
元数据层：时间戳、环境参数、任务标签

图1：LeRobot的VLA(Visual-Language-Action)架构展示了视觉、语言和动作数据的融合过程。系统通过Vision Encoder处理图像输入，Text Tokenizer解析任务指令，结合Robot State构建完整的决策输入，最终通过Action Decoder生成机器人控制指令。

数据格式决策指南：选择最适合你的存储方案

HDF5格式：大规模数值数据的理想选择

适用场景：存储多模态传感器数据，尤其是需要保持数据关联性的场景

优势：

支持复杂数据结构和元数据存储
高效的随机访问性能
适合TB级大规模数据集

使用工具：h5py库提供Python接口，hdfview可进行可视化检查

Zarr格式：分布式训练的最佳伴侣

适用场景：需要跨设备共享或云存储的大型数据集

核心特性：

分块存储支持并行访问
内置压缩算法节省存储空间
兼容Dask等分布式计算框架

转换命令：

python src/lerobot/datasets/v30/convert_dataset_v21_to_v30.py --input_path ./raw_data --output_format zarr

Parquet格式：结构化元数据的高效存储

适用场景：存储任务标签、环境参数等结构化数据

关键优势：

列式存储提高查询效率
自动压缩减少存储空间
与Pandas生态系统无缝集成

数据集制作全流程实践

1. 数据采集配置

硬件准备：

确保所有传感器校准完成
验证时间同步机制（推荐使用NTP或硬件触发）
测试数据记录系统稳定性

软件配置：

# 列出可用摄像头
python src/lerobot/scripts/lerobot_find_cameras.py

# 配置电机参数
python src/lerobot/scripts/lerobot_setup_motors.py --config configs/so100.yaml

2. 数据记录与初步处理

启动数据记录：

# 基础记录命令
python src/lerobot/scripts/lerobot_record.py --config configs/recording/so100_default.yaml

# 带视觉反馈的记录模式
python src/lerobot/scripts/lerobot_record.py --config configs/recording/so100_visual.yaml --show-preview

数据质量实时监控：

检查帧率稳定性（视觉数据应保持30fps以上）
监控存储写入速度（推荐>100MB/s）
验证传感器同步状态

3. 数据格式转换与标准化

执行格式转换：

# 转换为LeRobot标准格式
python examples/porting_datasets/port_droid.py --input_dir ./raw_data --output_dir ./processed_data

# 计算数据集统计信息
python src/lerobot/datasets/compute_stats.py --dataset_path ./processed_data

标准化处理：

统一图像分辨率和编码格式
规范化关节角度范围至[-1, 1]
同步时间戳至统一参考系

4. 数据集验证与优化

运行验证工具：

# 完整性检查
python tests/datasets/test_datasets.py --dataset_path ./processed_data

# 可视化样本检查
python src/lerobot/scripts/lerobot_dataset_viz.py --dataset_path ./processed_data --num_samples 10

性能优化：

针对频繁访问的数据进行预加载
优化分块大小以匹配模型批处理需求
平衡压缩率与访问速度

硬件平台适配指南

不同机器人平台有其特定的数据采集需求，以下是常见平台的适配要点：

SO100机械臂平台

图2：SO100机械臂是一款低成本开源机器人平台，采用3D打印结构和伺服电机驱动，适合教育和研究场景。其数据采集重点包括末端执行器位置精度和关节角度反馈。

适配要点：

校准关节零位和运动范围
配置末端执行器力反馈阈值
设置适当的运动速度限制避免机械冲击

多机器人协作系统

图3：多机器人协作系统展示了两个机械臂协同工作场景。数据采集中需特别关注系统间的时间同步和动作协调信息记录。

适配要点：

建立主从时钟同步机制
记录机器人间相对位置关系
标记协作任务中的角色分工

常见问题解决方案

数据不同步问题

症状：视觉数据与关节状态时间戳偏差>50ms

解决方案：

检查系统时间同步服务
使用硬件触发同步多传感器
应用时间戳插值校正算法：

# 时间戳校正示例代码
from lerobot.utils.time_utils import interpolate_timestamps
synced_data = interpolate_timestamps(raw_sensor_data, target_fps=30)

存储性能瓶颈

症状：数据记录过程中出现丢帧或延迟

解决方案：

使用NVMe SSD存储介质
降低图像分辨率或采用压缩编码
分布式记录架构分离处理与存储

数据集不平衡问题

症状：特定动作或场景的数据样本不足

解决方案：

实施分层采样策略
利用数据增强生成多样化样本
设计定向采集补充实验

数据集评估量化指标

指标类别	关键指标	推荐阈值	测量方法
数据完整性	完整episode比例	>95%	`dataset_stats['complete_episodes_ratio']`
时间一致性	时间戳间隔标准差	<5ms	时间序列分析
动作覆盖率	动作空间覆盖率	>90%	动作分布直方图
数据多样性	环境特征熵	>3.0	特征空间分布分析
标注质量	动作-观测匹配度	>0.9	交叉验证一致性检查

进阶学习路径

核心技术深入

数据高效表示
- 学习稀疏编码和特征降维技术
- 探索自监督学习在数据预处理中的应用
- 研究论文：《Learning Efficient Representations for Robot Manipulation》
在线学习与适应
- 动态数据集更新策略
- 概念漂移检测与适应
- 参考实现：examples/training/train_with_streaming.py