CatVTON 开源项目使用与启动指南

2026-01-30 04:41:07作者：沈韬淼Beryl

[ICLR 2025] CatVTON is a simple and efficient virtual try-on diffusion model with 1) Lightweight Network (899.06M parameters totally), 2) Parameter-Efficient Training (49.57M parameters trainable) and 3) Simplified Inference (< 8G VRAM for 1024X768 resolution).

项目地址：https://gitcode.com/gh_mirrors/ca/CatVTON

1. 项目介绍

CatVTON 是一个简单而高效的虚拟试穿扩散模型，具备以下特点：

轻量级网络（总参数量899.06M）
参数高效训练（可训练参数量49.57M）
简化推理（1024x768分辨率下，VRAM需求小于8G）

CatVTON 支持图像和视频虚拟试穿，并且具备高效的模型训练与部署能力。它采用了稳定扩散模型作为基础，通过自动生成遮罩实现虚拟试穿。

2. 项目快速启动

环境准备

首先，创建一个conda环境并安装必要的依赖：

conda create -n catvton python==3.9.0
conda activate catvton
cd CatVTON-main  # 或者你的CatVTON项目目录
pip install -r requirements.txt

推理

运行推理前，需要准备数据集。你可以使用VITON-HD或DressCode数据集。以下是数据集的目录结构示例：

├── VITON-HD
│   ├── test_pairs_unpaired.txt
│   ├── test
│   │   ├── image
│   │   ├── cloth
│   │   ├── agnostic-mask
...
├── DressCode
│   ├── test_pairs_paired.txt
│   ├── test_pairs_unpaired.txt
│   ├── [dresses | lower_body | upper_body]
│   │   ├── test_pairs_paired.txt
│   │   ├── test_pairs_unpaired.txt
│   │   ├── images
│   │   ├── agnostic_masks
...

对于DressCode数据集，我们提供了一个脚本来预处理遮罩：

CUDA_VISIBLE_DEVICES=0 python preprocess_agnostic_mask.py --data_root_path <你的DressCode路径>

然后，运行以下命令进行推理，检查点将自动从HuggingFace下载：

CUDA_VISIBLE_DEVICES=0 python inference.py --dataset [dresscode|vitonhd] --data_root_path <路径> --output_dir <路径> --dataloader_num_workers 8 --batch_size 8 --seed 555 --mixed_precision [no|fp16|bf16] --allow_tf32 --repaint --eval_pair

评估

获取推理结果后，可以使用以下命令计算度量指标：

CUDA_VISIBLE_DEVICES=0 python eval.py -gt_folder <你的gt图像文件夹路径> --pred_folder <你的预测图像文件夹路径> --paired --batch_size=16 --num_workers=16

3. 应用案例和最佳实践

案例一：在电子商务平台上，使用CatVTON为用户提供虚拟试穿功能，增加用户互动和购买意愿。
案例二：在游戏或虚拟现实中，利用CatVTON模型实时更换角色服装，提升用户体验。

4. 典型生态项目

ComfyUI：为CatVTON提供了部署工作流，简化了模型在ComfyUI平台上的部署过程。
Gradio App：提供了交互式界面，方便用户直观地体验CatVTON模型的虚拟试穿功能。

CatVTON

项目地址：https://gitcode.com/gh_mirrors/ca/CatVTON

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

CatVTON 开源项目使用与启动指南

1. 项目介绍

2. 项目快速启动

环境准备

推理

评估

3. 应用案例和最佳实践

4. 典型生态项目

热门内容推荐

最新内容推荐

项目优选

CatVTON 开源项目使用与启动指南

1. 项目介绍

2. 项目快速启动

环境准备

推理

评估

3. 应用案例和最佳实践

4. 典型生态项目

相关内容推荐

热门内容推荐

最新内容推荐

项目优选