【亲测免费】 Scan2CAD 项目使用教程
1. 项目介绍
Scan2CAD 是一个用于将 3D CAD 模型对齐到 RGB-D 扫描数据中的研究项目。该项目在 CVPR 2019 上发表,提供了一个数据集和代码,用于学习和实现 CAD 模型在 RGB-D 扫描中的对齐。Scan2CAD 的核心目标是自动将 3D 扫描数据中的对象与预定义的 CAD 模型进行匹配和对齐,从而实现更精确的 3D 重建和场景理解。
2. 项目快速启动
2.1 克隆项目仓库
首先,克隆 Scan2CAD 项目仓库到本地:
git clone https://github.com/skanti/Scan2CAD.git
cd Scan2CAD
2.2 获取数据集
为了使用 Scan2CAD 数据集,您需要填写一个 Google 表单来获取下载链接。下载完成后,将数据集内容复制到项目目录中的 /Routines/Script/ 文件夹。
2.3 可视化数据
使用以下命令可视化数据:
python3 /Routines/Script/Annotation2Mesh.py
2.4 编译 C++ 程序
进入 C++ 程序目录并编译:
cd [Vox2Mesh, DFGen, CropCentered]
make
2.5 生成数据
生成对应关系数据:
python3 /Routines/Script/GenerateCorrespondences.py
2.6 开始训练
进入 PyTorch 训练目录并启动训练:
cd /Network/pytorch
./run.sh
2.7 运行对齐算法
运行对齐算法并查看结果:
cd Routines/Scripts
python3 Alignment9DoF.py --projectdir /Network/pytorch/output/dummy
python3 Alignment2Mesh.py --alignment /tmp/alignments/dummy/scene0470_00.csv --out /
3. 应用案例和最佳实践
3.1 3D 重建
Scan2CAD 可以用于自动将 3D 扫描数据中的对象与 CAD 模型对齐,从而实现更精确的 3D 重建。这在建筑、室内设计和机器人导航等领域有广泛应用。
3.2 场景理解
通过对齐 CAD 模型,Scan2CAD 可以帮助理解复杂场景中的对象布局和结构,从而提高场景理解的准确性。
3.3 自动化检测
Scan2CAD 还可以用于自动化检测和识别场景中的特定对象,例如在工业检测中自动识别和定位特定零件。
4. 典型生态项目
4.1 ScanNet
ScanNet 是一个大规模的 RGB-D 扫描数据集,用于室内场景的 3D 重建和理解。Scan2CAD 使用了 ScanNet 数据集来训练和验证其模型。
4.2 ShapeNet
ShapeNet 是一个大规模的 3D 模型数据集,包含了各种类别的 3D CAD 模型。Scan2CAD 使用了 ShapeNet 数据集中的 CAD 模型来进行对齐和匹配。
4.3 PyTorch
PyTorch 是一个开源的深度学习框架,Scan2CAD 使用了 PyTorch 来实现其深度学习模型,并进行训练和推理。
通过以上步骤,您可以快速启动 Scan2CAD 项目,并了解其在 3D 重建、场景理解和自动化检测等领域的应用。
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
HY-Embodied-0.5这是一套专为现实世界具身智能打造的基础模型。该系列模型采用创新的混合Transformer(Mixture-of-Transformers, MoT) 架构,通过潜在令牌实现模态特异性计算,显著提升了细粒度感知能力。Jinja00
LongCat-AudioDiT-1BLongCat-AudioDiT 是一款基于扩散模型的文本转语音(TTS)模型,代表了当前该领域的最高水平(SOTA),它直接在波形潜空间中进行操作。00
ERNIE-ImageERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本到图像生成模型。它基于单流扩散 Transformer(DiT)构建,并配备了轻量级的提示增强器,可将用户的简短输入扩展为更丰富的结构化描述。凭借仅 80 亿的 DiT 参数,它在开源文本到图像模型中达到了最先进的性能。该模型的设计不仅追求强大的视觉质量,还注重实际生成场景中的可控性,在这些场景中,准确的内容呈现与美观同等重要。特别是,ERNIE-Image 在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,使其非常适合商业海报、漫画、多格布局以及其他需要兼具视觉质量和精确控制的内容创作任务。它还支持广泛的视觉风格,包括写实摄影、设计导向图像以及更多风格化的美学输出。Jinja00