Craves.ai 机器人手臂姿态估计数据集详解

2025-06-19 12:19:49作者：苗圣禹Peter

项目背景

Craves.ai 是一个专注于机器人视觉与控制的创新项目，其核心目标是通过计算机视觉技术实现对机器人手臂的精确姿态估计。为了实现这一目标，项目团队精心构建了多个高质量的数据集，包含合成数据和真实场景数据，为机器人手臂姿态估计模型的训练与验证提供了坚实基础。

数据集概览

1. 合成数据集（虚拟数据集）

技术特点：

使用 Unreal Engine 4 和 UnrealCV 工具生成
包含 5,000 张合成图像
采用随机化的相机参数、光照条件、手臂姿态和背景增强
训练集/验证集划分：4,500/500

优势：

数据规模可控
标注精度高（自动生成）
场景多样性可通过参数调节

2. 真实数据集

2.1 实验室数据集

技术特点：

使用 720P 网络摄像头采集
原始帧数超过 20,000 帧
精选 428 个关键帧进行人工标注
包含干扰物（彩色盒子、骰子、球等）

应用价值：

模拟真实实验室环境
包含复杂背景干扰
适合测试模型鲁棒性

2.2 YouTube 数据集

技术特点：

从 YouTube 爬取的 109 个 OWI-535 机械臂视频
精选 275 帧进行人工标注
仅提供 2D 关键点标注

独特价值：

场景高度多样化
包含改装机械臂（几何约束可能不成立）
反映真实世界应用场景

数据集结构详解

虚拟与实验室数据集结构

数据集根目录
│   readme.txt 
│
├───angles                  // 电机角度真值   
│   
├───FusionCameraActor3_2
│   ├───caminfo             // 相机参数真值
│   ├───lit                 // RGB 图像
│   ├───seg                 // 分割图像
│
├───joint                   // 3D 空间关键点位置  
│
......

技术要点：

提供完整的 3D 标注信息
包含相机参数，支持 3D 到 2D 的投影计算
电机角度信息可用于运动学分析

YouTube 数据集结构

数据集根目录
│
├───d3_preds                // 2D 关键点标注真值   
│   
├───imgs                    // RGB 图像  
│
......

技术要点：

仅提供 2D 标注
适用于 2D 姿态估计任务
图像来源多样，场景复杂

数据加载与处理

项目提供了专业的数据加载脚本，主要处理流程包括：

数据读取：
- 对于 YouTube 数据集，直接加载 2D 标注
- 对于虚拟和实验室数据集，通过相机参数将 3D 标注投影到 2D 图像空间

坐标转换：

joint_2d, vertex_2d, img_path = get_joint_vertex_2d(self.dataset, ids, self.cam_name, self.actor_name)

使用 UnrealCV 提供的相机类实现 3D 到 2D 的精确投影

数据增强：
- 随机位移
- 缩放变换
- 颜色偏移
- 旋转变换
热图生成：
- 基于 2D 标注生成 17 通道热图
- 支持模型训练中的监督学习

评估指标与结果

2D 姿态评估

采用 PCK@0.2 指标（Percentage of Correct Keypoints at 0.2），该指标衡量关键点预测位置与真实位置的距离在图像尺寸 20% 范围内的比例。

典型结果：

合成数据测试集：98.7%
实验室测试集：92.3%
YouTube 测试集：85.6%

3D 姿态评估

计算四个关节角的平均绝对误差：

实验室数据集表现：

平均角度误差：4.8 度
证明了模型在真实场景中的有效性

应用建议

模型训练：
- 建议先在合成数据上预训练
- 然后使用实验室数据进行微调
- 最后用 YouTube 数据测试泛化能力
领域适应：
- 利用提供的未标注实验室图像进行半监督学习
- 可结合背景替换技术增强数据多样性
评估策略：
- 2D 任务关注 PCK 指标
- 3D 任务关注关节角度误差
- 建议同时考虑两种指标的综合评估

技术展望

Craves.ai 数据集为机器人手臂姿态估计研究提供了宝贵资源，未来可扩展方向包括：

增加更多机械臂型号的数据
引入动态视频序列标注
开发多模态数据集（如结合深度信息）
构建更复杂的工业场景数据集

该数据集不仅适用于学术研究，也可为工业应用中的机器人视觉系统开发提供有力支持。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.38 K

782