【亲测免费】 Depth Anything V2：单目深度估计的更强基线

2026-01-22 04:50:35作者：姚月梅Lane

项目介绍

Depth Anything V2 是由HKU与TikTok团队合作开发的单目深度估计算法的升级版本。这个框架显著提升了细节处理能力和鲁棒性，相比于基于深度学习的方法，它提供了更快的推理速度、更少的参数量以及更高的深度预测精度。本项目包括论文、代码、预训练模型、演示和基准测试，全面支持开发者和研究者在单目深度估计领域的探索。

项目快速启动

环境准备

首先，你需要克隆项目仓库到本地，并安装必要的依赖库：

git clone https://github.com/DepthAnything/Depth-Anything-V2.git
cd Depth-Anything-V2
pip install -r requirements.txt

接下来，下载预训练模型并放置在checkpoints目录下。以VITL配置为例：

wget [模型URL] -O checkpoints/depth_anything_v2_vitl.pth

使用模型进行预测

确保你的环境中已正确设置PyTorch，并选择合适的设备（CUDA, MPS, 或 CPU）。示例代码如下：

import cv2
import torch
from depth_anything_v2.dpt import DepthAnythingV2

DEVICE = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu'
model_config = {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]}
model = DepthAnythingV2(**model_config)
model.load_state_dict(torch.load('checkpoints/depth_anything_v2_vitl.pth', map_location='cpu'))
model.to(DEVICE).eval()

raw_img = cv2.imread('your/image/path.jpg')
depth_map = model.infer_image(raw_img)

另一方式：通过Transformers加载

对于不想直接克隆仓库的用户，可以通过Hugging Face Transformers加载模型：

from transformers import pipeline
image = Image.open('your/image/path.jpg')
depth_estimator = pipeline("depth-estimation", model="depth-anything/Depth-Anything-V2-Small-hf")
depth = depth_estimator(image)['depth']

应用案例和最佳实践

Depth Anything V2在多个领域内展示出其强大的实用性，例如增强现实、机器人导航、3D建模等。最佳实践中，开发者可以利用其快速且精确的深度预测能力来优化图像合成、室内设计模拟或是自动驾驶场景中的即时环境理解。

示例脚本运行

你可以通过提供的脚本来批量处理图像或视频：

处理图像

python run.py --encoder vitl --img-path path/to/images --outdir output_dir

处理视频

python run_video.py --encoder vitl --video-path path/to/video.mp4 --outdir video_output_dir

典型生态项目

Depth Anything V2不仅仅局限于自己的仓库，还被广泛整合进不同的技术生态中，比如Apple Core ML、Transformer模型库、TensorRT、ONNX，甚至于Web端的实时深度估计解决方案。这些生态项目使得其算法可以无缝集成到iOS应用、高性能服务器部署乃至前端网页应用中，极大地扩展了应用场景的边界。

由于篇幅限制，具体生态项目的集成步骤及说明建议参考各自的官方文档或通过提供的链接深入学习。

本快速入门指南旨在帮助开发者迅速上手Depth Anything V2项目，利用其强大的功能加速自己的项目开发进程。记得查看项目仓库中更详细的文档和最新的更新信息，以便获取最佳的使用体验。

Depth-Anything-V2

[NeurIPS 2024] Depth Anything V2. A More Capable Foundation Model for Monocular Depth Estimation

项目地址：https://gitcode.com/gh_mirrors/de/Depth-Anything-V2

登录后查看全文