WoVoGen 的安装和配置教程

2025-05-21 23:04:57作者：钟日瑜

1. 项目基础介绍

WoVoGen（World Volume-aware Diffusion for Controllable Multi-camera Driving Scene Generation）是一个开源项目，旨在生成可控的多摄像头驾驶场景视频。该项目通过利用4D世界体积的概念，生成未来的世界体积（例如高清晰度地图和占有率）和高质量的多摄像头街景图像。它适用于增强自动驾驶数据集，满足对广泛和多样化数据的需求。

该项目主要使用 Python 编程语言。

2. 项目使用的关键技术和框架

体积渲染技术：用于生成街景视频的渲染技术。
扩散模型：一种生成模型，用于确保生成的传感器数据保持世界内部一致性和传感器间的一致性。
深度学习框架：如 PyTorch，用于构建和训练模型。

3. 项目安装和配置的准备工作

在开始安装之前，请确保您的系统中已经安装了以下依赖项：

Python 3.9
PyTorch 2.1.0

您还需要准备以下环境：

NUSC_ROOT：指向 NuScenes 数据集的路径。
NUSC_OCC_ROOT：指向 NuScenes 占有率数据集的路径。
OUT_ROOT：用于存储生成的世界体积的输出路径。

安装步骤

克隆项目到本地环境：

git clone https://github.com/fudan-zvg/WoVoGen.git
cd WoVoGen

安装项目所需的 Python 包（请确保已安装 Python 3.9 和 PyTorch 2.1.0）：
```
pip install -r requirements.txt
```

生成世界体积：

python tools/nuscenes_convertor.py \
--nusc_root=$NUSC_ROOT \
--nusc_occ_root=$NUSC_OCC_ROOT \
--out_root=$OUT_ROOT \
--vae  # 添加图像潜在变量到世界体积

生成对象引导：
```
python tools/clip_convertor.py
```

添加权重到模型：

python tools/add_weight.py \
models/v2-1_512-ema-pruned.ckpt \
models/wovogen_single.ckpt

训练单个帧模型：

python train_single_frame.py \
--config_path models/cldm_v21_c64_256x448_6cat_clip_local_high_dim.yaml \
--resume-path=models/wovogen_single.ckpt

按照以上步骤操作，您应该能够成功安装和配置 WoVoGen 项目。随后，您可以开始使用该项目生成多摄像头驾驶场景视频。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

115

141