从零开始构建机器人学习数据集：LeRobot实战指南

2026-04-30 09:35:38作者：董灵辛Dennis

一、基础概念：机器人如何"看见"和"行动"

想象你第一次学习骑自行车——眼睛观察路况（视觉）、身体感受平衡（本体感觉）、大脑发出指令（动作）。机器人学习也遵循类似逻辑，而数据集就是记录这些"学习经验"的载体。

认识机器人的"感官信号"

机器人通过多种"感官"收集世界信息：

视觉信号：就像人类的眼睛，多摄像头捕捉的图像让机器人"看见"周围环境
状态数据：如同我们的肌肉和关节感知，记录机器人每个关节的角度、位置和速度
控制指令：相当于大脑发送给肌肉的信号，包含关节力矩、末端执行器位姿等控制参数

这些数据需要被妥善组织才能让机器人"理解"。LeRobot数据集格式就像一本标准化的"日记"，记录机器人在执行任务过程中的所有关键信息。

数据格式的"收纳哲学"

不同类型的数据需要不同的"收纳盒"：

HDF5：适合存储大量数值数据的"行李箱"，结构固定且容量大
Zarr：像带有压缩功能的"抽屉柜"，特别适合高维传感器数据
Parquet：结构化数据的"档案夹"，按列存储便于快速查询
Pickle：Python对象的"保鲜盒"，但要注意版本兼容性

思考：为什么机器人学习需要这么多种数据格式？不同格式分别解决什么特定问题？

二、核心流程：构建数据集的四步工作流

规划数据采集：打好基础是关键

就像烹饪前需要准备食材，数据采集前要明确：

任务定义：机器人要完成什么具体动作？（如抓取、移动、装配）
传感器配置：需要记录哪些"感官"数据？摄像头帧率设为多少合适？
时间同步：如何确保视觉、关节和控制数据在时间上精确对齐？

小贴士：建议从简单任务开始，如单关节运动或简单抓取，验证采集流程后再扩展到复杂场景。

执行数据预处理：数据的"清洁整理"

原始数据就像刚买回来的蔬菜，需要清洗和处理：

数据对齐：确保不同传感器的时间戳精确匹配（通常误差需控制在10ms以内）
异常处理：识别并处理传感器故障或运动异常导致的离群值
标准化：统一数据单位和范围（如将关节角度转换为弧度制）

为什么需要这样设置？时间同步误差过大会导致"看到"和"做的"不匹配，就像看慢动作视频时做动作会不协调。

格式转换与存储：选择合适的"容器"

根据数据特点选择转换工具：

使用lerobot_dataset.py处理基础格式转换
运行convert_dataset_v21_to_v30.py升级旧版本数据集
通过push_dataset_to_hub/utils.py将处理好的数据集上传到模型库

思考：如何判断哪种存储格式最适合你的数据集？考虑数据大小、访问频率和读取速度需求。

质量验证：数据"体检"三步骤

完整性检查：运行test_datasets.py确保没有缺失或损坏的数据
统计分析：使用compute_stats.py生成数据分布报告
可视化检查：通过lerobot_dataset_viz.py直观查看数据序列

三、实战案例：协作机械臂数据集构建

案例背景

我们将构建一个双机械臂协作数据集，记录两个3D打印机械臂协同完成物体传递任务的过程。

图1：双机械臂协作系统实物图，两个蓝色机械臂通过协同操作完成物体传递任务

实施步骤

硬件准备：
- 两个SO100机械臂（配备Feetech伺服电机）
- 2个Realsense D435深度摄像头
- 同步触发装置确保时间对齐

数据采集：

git clone https://gitcode.com/GitHub_Trending/le/lerobot
cd lerobot
python examples/so100_to_so100_EE/record.py --camera_config configs/cameras/realsense.yaml

数据处理：

# 检查数据完整性
python tests/datasets/test_datasets.py --path data/so100_collaboration
# 转换为Zarr格式
python src/lerobot/datasets/v30/convert_dataset_v21_to_v30.py --input data/raw --output data/processed

数据集验证：

# 可视化数据
python scripts/lerobot_dataset_viz.py --path data/processed
# 计算统计信息
python src/lerobot/datasets/compute_stats.py --path data/processed

小贴士：记录时尽量保持环境光照稳定，避免反光影响视觉数据质量。

四、进阶技巧：提升数据集质量的关键策略

掌握数据增强技术

像给机器人"看"不同角度的同一物体：

使用transforms.py添加图像增强（旋转、缩放、光照变化）
应用augment_dataset_quantile_stats.py生成多样化动作序列

为什么需要这样做？数据增强可以让机器人从有限数据中学习更鲁棒的特征，就像人类通过不同角度观察物体建立立体认知。

处理多模态数据融合

不同"感官"数据的融合技巧：

Align视觉和关节数据时使用video_utils.py中的时间戳校正功能
通过pipeline_features.py提取多模态特征

思考：如何解决不同传感器采样频率不一致的问题？尝试使用插值或重采样技术。

优化数据集存储与加载

对大型图像数据集使用image_writer.py进行分块存储
使用streaming_dataset.py实现训练时的高效数据加载

高级质量控制工具

运行lerobot_edit_dataset.py修复异常数据点
使用test_quantiles_dataset_integration.py验证数据分布合理性

总结

构建高质量机器人学习数据集就像制作一部纪录片——需要精心策划（数据采集）、专业剪辑（预处理）、优质存储（格式转换）和严格审片（质量验证）。通过本文介绍的方法，你可以从零开始创建自己的机器人学习数据集，为训练高性能机器人算法奠定基础。

记住，好的数据集是机器人学习成功的一半。随着实践深入，你会逐渐掌握数据质量的"第六感"，能够识别哪些数据对模型学习最有价值。现在就动手尝试吧！

lerobot

🤗 LeRobot: Making AI for Robotics more accessible with end-to-end learning

项目地址：https://gitcode.com/GitHub_Trending/le/lerobot

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

425

376

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.65 K

970

从零开始构建机器人学习数据集：LeRobot实战指南

一、基础概念：机器人如何"看见"和"行动"

认识机器人的"感官信号"

数据格式的"收纳哲学"

二、核心流程：构建数据集的四步工作流

规划数据采集：打好基础是关键

执行数据预处理：数据的"清洁整理"

格式转换与存储：选择合适的"容器"

质量验证：数据"体检"三步骤

三、实战案例：协作机械臂数据集构建

案例背景

实施步骤

四、进阶技巧：提升数据集质量的关键策略

掌握数据增强技术

处理多模态数据融合

优化数据集存储与加载

高级质量控制工具

总结

热门内容推荐

最新内容推荐

项目优选

从零开始构建机器人学习数据集：LeRobot实战指南

一、基础概念：机器人如何"看见"和"行动"

认识机器人的"感官信号"

数据格式的"收纳哲学"

二、核心流程：构建数据集的四步工作流

规划数据采集：打好基础是关键

执行数据预处理：数据的"清洁整理"

格式转换与存储：选择合适的"容器"

质量验证：数据"体检"三步骤

三、实战案例：协作机械臂数据集构建

案例背景

实施步骤

四、进阶技巧：提升数据集质量的关键策略

掌握数据增强技术

处理多模态数据融合

优化数据集存储与加载

高级质量控制工具

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选