LL3DA 项目使用教程

2024-09-26 07:38:44作者：温艾琴Wonderful

1. 项目介绍

LL3DA 是一个大型语言 3D 助手，能够响应复杂 3D 环境中的视觉和文本交互。该项目在 CVPR 2024 中被接受，旨在通过点云作为直接输入，帮助大型多模态模型（LMM）更好地理解人类交互，并消除 3D 场景中的模糊性。LL3DA 在 3D 密集标注和 3D 问答任务中表现出色，超越了多种 3D 视觉语言模型。

2. 项目快速启动

环境设置

首先，确保你的环境满足以下要求：

CUDA 11.6
Python 3.8.16

安装必要的依赖包：

pip install h5py scipy cython plyfile 'trimesh>=2.35.39,<2.35.40' 'networkx>=2.2,<2.3' 'torch==1.13.1+cu116' 'transformers>=4.37.0'

然后，从源码构建 pointnet2 和加速的 giou：

cd third_party/pointnet2
python setup.py install
cd utils
python cython_compile.py build_ext --inplace

下载预训练嵌入

从 Hugging Face 下载预处理的 BERT 嵌入权重，并存储在 /bert-base-embedding 文件夹中。

数据准备

下载和准备 ScanNet 3D 数据

按照以下步骤下载 ScanNetV2 数据集：

cd data/scannet/
python batch_load_scannet_data.py

准备语言标注

下载并预处理 ScanRefer、Nr3D、ScanQA 和 3D-LLM 数据集，并组织文件结构如下：

/data/
  ScanRefer/
    ScanRefer_filtered_train.json
    ScanRefer_filtered_train.txt
    ScanRefer_filtered_val.json
    ScanRefer_filtered_val.txt
  Nr3D/
    nr3d_train.json
    nr3d_train.txt
    nr3d_val.json
    nr3d_val.txt
  ScanQA/
    ScanQA_v1.0_test_w_obj.json
    ScanQA_v1.0_test_wo_obj.json
    ScanQA_v1.0_train.json
    ScanQA_v1.0_val.json
  3D_LLM/
    3d_llm_embodied_dialogue_filtered_train.json
    3d_llm_embodied_dialogue_filtered_val.json
    3d_llm_embodied_planning_filtered_train.json
    3d_llm_embodied_planning_filtered_val.json
    3d_llm_scene_description_train.json
    3d_llm_scene_description_val.json

训练模型

使用以下命令训练 3D 通用模型：

bash scripts/opt-1.3b/train_generalist.sh

3. 应用案例和最佳实践

3D 密集标注

在 ScanRefer 和 Nr3D 数据集上进行微调：

bash scripts/opt-1.3b/tuning_scanrefer.sh
bash scripts/opt-1.3b/tuning_nr3d.sh

3D 问答

在 ScanQA 数据集上进行微调：

bash scripts/opt-1.3b/tuning_scanqa.sh

开放词汇对象检测

微调模型以预测边界框：

bash scripts/opt-1.3b/tuning_ovdet.sh

4. 典型生态项目

项目优选

收起

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

Cangjie

286

✍ WeChat Markdown Editor | 一款高度简洁的微信 Markdown 编辑器：支持 Markdown 语法、色盘取色、多图上传、一键下载文档、自定义 CSS 样式、一键重置等特性

Vue

112

openHiTLS

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

RuoYi-Cloud-Vue3

🎉 基于Spring Boot、Spring Cloud & Alibaba、Vue3 & Vite、Element Plus的分布式前后端分离微服务架构权限管理系统

Vue

go-stock

🦄🦄🦄AI赋能股票分析：自选股行情获取，成本盈亏展示，涨跌报警推送，市场整体/个股情绪分析，K线技术指标分析等。数据全部保留在本地。支持DeepSeek，OpenAI， Ollama，LMStudio，AnythingLLM，硅基流动，火山方舟，阿里云百炼等平台或模型。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

Cangjie

205

MateChat

前端智能化场景解决方案UI库，轻松构建你的AI应用，我们将持续完善更新，欢迎你的使用与建议。官网地址：https://matechat.gitcode.com

383

RuoYi-Vue

🎉 基于SpringBoot，Spring Security，JWT，Vue & Element 的前后端分离权限管理系统，同时提供了 Vue3 的版本

Java

182

frog

这是一个人工生命试验项目，最终目标是创建“有自我意识表现”的模拟生命体。

Java

LL3DA 项目使用教程

1. 项目介绍

2. 项目快速启动

环境设置

下载预训练嵌入

数据准备

下载和准备 ScanNet 3D 数据

准备语言标注

训练模型

3. 应用案例和最佳实践

3D 密集标注

3D 问答

开放词汇对象检测

4. 典型生态项目

相关项目

热门内容推荐

最新内容推荐

项目优选

LL3DA 项目使用教程

1. 项目介绍

2. 项目快速启动

环境设置

下载预训练嵌入

数据准备

下载和准备 ScanNet 3D 数据

准备语言标注

训练模型

3. 应用案例和最佳实践

3D 密集标注

3D 问答

开放词汇对象检测

4. 典型生态项目

相关项目

相关内容推荐

热门内容推荐

最新内容推荐

项目优选