TransDepth 项目使用教程

2024-09-20 22:21:55作者：钟日瑜

项目地址：https://gitcode.com/gh_mirrors/tr/TransDepth

1. 项目介绍

TransDepth 是一个基于 Transformer 的深度预测模型，旨在解决单目深度预测中的有限感受野问题。该项目结合了卷积神经网络（CNN）和 Transformer 的优势，通过引入基于门控机制的注意力网络，能够在连续像素级别的预测任务中表现出色。TransDepth 主要应用于单目深度预测和表面法线估计，并在多个挑战性数据集上取得了最先进的性能。

2. 项目快速启动

2.1 环境准备

首先，确保你已经安装了 Python 3.x 和 PyTorch。你可以通过以下命令安装所需的依赖包：

pip install -r requirements.txt

2.2 数据准备

TransDepth 支持 NYU Depth V2 和 KITTI 数据集。你可以通过以下步骤准备数据：

2.2.1 准备 NYU Depth V2 数据集

mkdir -p pytorch/dataset/nyu_depth_v2
python utils/download_from_gdrive.py 1AysroWpfISmm-yRFGBgFTrLy6FjQwvwP pytorch/dataset/nyu_depth_v2/sync.zip
cd pytorch/dataset/nyu_depth_v2
unzip sync.zip

2.2.2 准备 KITTI 数据集

cd dataset
mkdir kitti_dataset
cd kitti_dataset
wget -i kitti_archives_to_download.txt
unzip data_depth_annotated.zip

2.3 模型训练

使用以下命令开始训练模型：

CUDA_VISIBLE_DEVICES=0,1,2,3 python bts_main.py arguments_train_nyu.txt

2.4 模型测试

训练完成后，可以使用以下命令进行模型测试：

CUDA_VISIBLE_DEVICES=1 python bts_test.py arguments_test_nyu.txt

3. 应用案例和最佳实践

3.1 单目深度预测

TransDepth 在单目深度预测任务中表现出色，能够准确预测图像中每个像素的深度值。以下是一个典型的应用案例：

import torch
from transdepth import TransDepthModel

# 加载预训练模型
model = TransDepthModel()
model.load_state_dict(torch.load('pretrained_model.pth'))

# 输入图像
input_image = torch.randn(1, 3, 480, 640)  # 假设输入图像大小为 480x640

# 预测深度
with torch.no_grad():
    depth_map = model(input_image)

print(depth_map.shape)  # 输出深度图的形状

3.2 表面法线估计

TransDepth 还可以用于表面法线估计，通过预测图像中每个像素的法线方向，可以用于三维重建等任务。

# 加载预训练模型
model = TransDepthModel(task='surface_normal')
model.load_state_dict(torch.load('pretrained_surface_normal_model.pth'))

# 输入图像
input_image = torch.randn(1, 3, 480, 640)

# 预测表面法线
with torch.no_grad():
    normal_map = model(input_image)

print(normal_map.shape)  # 输出法线图的形状