开源项目Embodied Generalist LEO使用教程

2024-09-25 23:52:44作者：伍希望

1. 项目介绍

Embodied Generalist LEO是一个3D具身多模态通才代理，能够在3D世界中进行感知、接地、推理、规划和行动。该项目由ICML 2024正式发布，旨在构建一个能够在多种任务和领域中表现出色的通用代理。LEO通过两阶段的训练方案进行训练：(i) 3D视觉-语言（VL）对齐和(ii) 3D视觉-语言-动作（VLA）指令调优。

2. 项目快速启动

2.1 克隆项目仓库

首先，克隆Embodied Generalist LEO的GitHub仓库到本地：

git clone git@github.com:embodied-generalist/embodied-generalist.git
cd embodied-generalist

2.2 创建并激活Conda环境

创建一个新的Conda环境并激活它：

conda create -n leo python=3.9
conda activate leo

2.3 安装依赖

安装PyTorch和其他依赖项：

conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt
pip install peft==0.5.0 --no-deps

2.4 安装第三方库

安装用于点云后端的第三方库：

cd model
cd pointnetpp
python setup.py install

2.5 运行项目

确保配置文件configs/default.yaml设置正确后，运行项目：

python run.py

3. 应用案例和最佳实践

3.1 3D视觉-语言对齐

LEO在3D视觉-语言对齐阶段，通过大量的数据集进行训练，包括Objaverse、ScanNet和3RScan等。这些数据集帮助LEO在3D环境中进行视觉和语言的对齐，从而更好地理解和推理3D场景。

3.2 3D视觉-语言-动作指令调优

在第二阶段，LEO通过3D视觉-语言-动作指令调优，进一步增强其在3D世界中的行动能力。这一阶段的数据集包括ScanNet、3RScan和MP3D等，涵盖了导航和操作等任务。

3.3 最佳实践

数据准备：确保所有数据集按照项目文档中的结构进行组织，以便训练和验证。
模型微调：根据具体任务需求，微调LEO的模型参数，以获得更好的性能。
实验记录：使用WandB等工具记录实验过程和结果，便于后续分析和优化。

4. 典型生态项目

4.1 SceneDiffuser

SceneDiffuser是一个与LEO相关的项目，专注于3D场景的扩散模型，能够生成高质量的3D场景数据，为LEO提供丰富的训练素材。

4.2 SQA3D

SQA3D是一个3D场景问答系统，与LEO结合使用，可以进行复杂的3D场景问答任务，提升LEO在3D环境中的交互能力。

4.3 ARNOLD

ARNOLD是一个机器人导航和操作项目，与LEO结合，可以实现更智能的机器人导航和操作任务，提升机器人在复杂环境中的适应能力。

通过以上模块的介绍和实践，您可以快速上手并深入了解Embodied Generalist LEO项目，并将其应用于各种3D场景中的任务和挑战。

项目优选

收起

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

Cangjie

196

openHiTLS

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

HarmonyOS-Examples

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

Cangjie

268

qwerty-learner

为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers

TSX

333

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

Markdown

896

advanced-java

Advanced-Java是一个Java进阶教程，适合用于学习Java高级特性和编程技巧。特点：内容深入、实例丰富、适合进阶学习。

前端智能化场景解决方案UI库，轻松构建你的AI应用，我们将持续完善更新，欢迎你的使用与建议。官网地址：https://matechat.gitcode.com

144

HarmonyOS-Cangjie-Cases

参考 HarmonyOS-Cases/Cases，提供仓颉开发鸿蒙 NEXT 应用的案例集

Cangjie

开源项目Embodied Generalist LEO使用教程

1. 项目介绍

2. 项目快速启动

2.1 克隆项目仓库

2.2 创建并激活Conda环境

2.3 安装依赖

2.4 安装第三方库

2.5 运行项目

3. 应用案例和最佳实践

3.1 3D视觉-语言对齐

3.2 3D视觉-语言-动作指令调优

3.3 最佳实践

4. 典型生态项目

4.1 SceneDiffuser

4.2 SQA3D

4.3 ARNOLD

热门内容推荐

最新内容推荐

项目优选

开源项目Embodied Generalist LEO使用教程

1. 项目介绍

2. 项目快速启动

2.1 克隆项目仓库

2.2 创建并激活Conda环境

2.3 安装依赖

2.4 安装第三方库

2.5 运行项目

3. 应用案例和最佳实践

3.1 3D视觉-语言对齐

3.2 3D视觉-语言-动作指令调优

3.3 最佳实践

4. 典型生态项目

4.1 SceneDiffuser

4.2 SQA3D

4.3 ARNOLD

相关内容推荐

热门内容推荐

最新内容推荐

项目优选