Wan2.2-TI2V-5B的部署与运行
文章详细介绍了Wan2.2-TI2V-5B模型的部署与运行方法,包括环境配置、依赖安装、模型下载、单GPU与多GPU推理方法、性能优化以及常见问题解决。
环境配置与依赖安装
在部署和运行 Wan2.2-TI2V-5B 模型之前,确保系统环境满足以下要求,并正确安装所有依赖项。本节将详细介绍环境配置步骤和依赖安装方法。
系统要求
- 操作系统:支持 Linux 和 Windows(推荐 Linux)。
- Python 版本:Python 3.8 或更高版本。
- GPU 要求:
- 单 GPU 运行:至少 24GB VRAM(如 NVIDIA RTX 4090)。
- 多 GPU 运行:支持 FSDP 和 DeepSpeed Ulysses 的 GPU 集群。
依赖安装
-
克隆仓库: 运行以下命令克隆项目仓库:
git clone https://gitcode.com/hf_mirrors/Wan-AI/Wan2.2-TI2V-5B.git cd Wan2.2-TI2V-5B -
安装 Python 依赖: 项目依赖项未提供
requirements.txt文件,但根据 README 中的描述,需安装以下核心依赖:pip install torch>=2.4.0 pip install huggingface_hub modelscope -
安装 Hugging Face CLI 工具: 用于下载模型权重:
pip install "huggingface_hub[cli]" -
安装 ModelScope CLI 工具: 用于从 ModelScope 下载模型:
pip install modelscope
模型下载
使用以下命令之一下载 Wan2.2-TI2V-5B 模型权重:
-
通过 Hugging Face Hub:
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B -
通过 ModelScope:
modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-TI2V-5B
验证安装
运行以下命令验证环境配置是否成功:
python -c "import torch; print(torch.__version__)"
确保输出为 2.4.0 或更高版本。
注意事项
- 如果使用多 GPU 运行,需额外安装
deepspeed和fairscale:pip install deepspeed fairscale - 确保 CUDA 和 cuDNN 版本与 PyTorch 兼容。
单GPU与多GPU的推理方法
Wan2.2-TI2V-5B 提供了灵活的推理方式,支持在单GPU和多GPU环境下运行。以下将详细介绍这两种方法的配置与使用。
单GPU推理
单GPU推理适用于资源有限的场景,例如使用单个高性能GPU(如RTX 4090)进行推理。以下是单GPU推理的配置示例:
文本到视频生成
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves, training in a futuristic gym"
图像到视频生成
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, with waves crashing against the shore"
参数说明
| 参数 | 描述 |
|---|---|
--task ti2v-5B |
指定任务类型为TI2V-5B模型。 |
--size 1280*704 |
设置生成视频的分辨率。 |
--ckpt_dir ./Wan2.2-TI2V-5B |
指定模型权重目录。 |
--offload_model True |
启用模型卸载以节省显存。 |
--convert_model_dtype |
转换模型参数类型以优化性能。 |
--t5_cpu |
将T5模型加载到CPU以释放GPU资源。 |
注意:如果GPU显存充足(如80GB以上),可以移除
--offload_model、--convert_model_dtype和--t5_cpu参数以提升推理速度。
多GPU推理
多GPU推理适用于需要处理高负载任务的场景,例如生成高分辨率视频或批量处理任务。以下是多GPU推理的配置示例:
使用FSDP + DeepSpeed Ulysses
torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style, with waves crashing against the shore"
参数说明
| 参数 | 描述 |
|---|---|
--nproc_per_node=8 |
指定每个节点使用的GPU数量。 |
--dit_fsdp |
启用FSDP(Fully Sharded Data Parallel)优化扩散模型。 |
--t5_fsdp |
启用FSDP优化T5模型。 |
--ulysses_size 8 |
设置DeepSpeed Ulysses的并行规模。 |
性能对比
以下为不同GPU配置下的性能表现(时间单位为秒,显存单位为GB):
| GPU配置 | 总时间 (s) | 峰值显存 (GB) |
|---|---|---|
| 单GPU (RTX 4090) | 120 | 24 |
| 多GPU (8x A100) | 45 | 80 |
流程图示例
flowchart TD
A[开始] --> B{选择GPU配置}
B -->|单GPU| C[配置单GPU参数]
B -->|多GPU| D[配置多GPU参数]
C --> E[运行推理]
D --> E
E --> F[生成视频]
F --> G[结束]
代码示例
以下是一个简单的Python脚本示例,用于加载模型并运行推理:
import torch
from models import Wan2Model
model = Wan2Model.from_pretrained("./Wan2.2-TI2V-5B")
model.to("cuda")
prompt = "A futuristic cityscape at night"
video = model.generate(prompt, size=(1280, 704))
video.save("output.mp4")
通过以上方法,用户可以根据自身需求灵活选择单GPU或多GPU推理方式,以高效完成视频生成任务。
模型下载与本地运行示例
Wan2.2-TI2V-5B 是一个强大的文本-图像到视频生成模型,支持 720P 分辨率的视频生成。本节将详细介绍如何下载模型并在本地运行示例代码。
模型下载
Wan2.2-TI2V-5B 的模型权重可以通过以下两种方式下载:
-
使用
huggingface-cli下载
安装huggingface_hub并运行以下命令:pip install "huggingface_hub[cli]" huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B -
使用
modelscope-cli下载
安装modelscope并运行以下命令:pip install modelscope modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-TI2V-5B
下载完成后,模型文件将保存在 ./Wan2.2-TI2V-5B 目录中。
本地运行示例
单 GPU 文本到视频生成
运行以下命令生成视频:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves"
参数说明:
--size 1280*704:指定生成视频的分辨率。--offload_model True:启用模型卸载以节省显存。--convert_model_dtype:转换模型参数类型以优化性能。--t5_cpu:将 T5 模型加载到 CPU 以节省显存。
单 GPU 图像到视频生成
运行以下命令生成视频:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style"
参数说明:
--image:指定输入图像的路径。- 其他参数与文本到视频生成相同。
多 GPU 推理
使用 FSDP + DeepSpeed Ulysses 进行多 GPU 推理:
torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style"
参数说明:
--nproc_per_node=8:指定使用的 GPU 数量。--dit_fsdp和--t5_fsdp:启用 FSDP 优化。--ulysses_size 8:指定 Ulysses 的并行规模。
示例结果
以下是一个示例生成的视频描述:
flowchart TD
A[输入文本或图像] --> B[模型推理]
B --> C[生成视频]
C --> D[输出视频文件]
注意事项
-
显存要求:
- 单 GPU 运行至少需要 24GB 显存(如 RTX 4090)。
- 多 GPU 运行需要根据 GPU 数量调整
--nproc_per_node参数。
-
分辨率设置:
- 720P 视频的分辨率为
1280*704或704*1280。
- 720P 视频的分辨率为
-
性能优化:
- 如果显存充足,可以移除
--offload_model和--t5_cpu参数以提升性能。
- 如果显存充足,可以移除
通过以上步骤,您可以轻松下载并运行 Wan2.2-TI2V-5B 模型,生成高质量的文本或图像驱动的视频内容。
性能优化与常见问题解决
性能优化
1. 多GPU并行计算
Wan2.2-TI2V-5B支持通过FSDP(Fully Sharded Data Parallel)和DeepSpeed Ulysses实现多GPU并行计算,显著提升推理速度。以下是一个典型的多GPU运行命令:
torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style"
优化点:
--dit_fsdp和--t5_fsdp:启用FSDP优化,减少显存占用。--ulysses_size 8:指定GPU数量,支持动态扩展。
2. 模型量化与显存优化
对于显存有限的设备,可以通过以下参数降低显存需求:
--offload_model True --convert_model_dtype --t5_cpu
--offload_model True:将部分模型参数卸载到CPU。--convert_model_dtype:将模型参数转换为低精度格式(如bf16)。
3. 高效VAE压缩
Wan2.2-TI2V-5B采用了16×16×4的高压缩比VAE,显著降低了计算复杂度。以下是一个典型的单GPU运行命令:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear"
常见问题解决
1. 显存不足
问题:运行时报错CUDA out of memory。
解决方案:
- 启用显存优化参数:
--offload_model True --convert_model_dtype --t5_cpu - 降低生成分辨率(如
--size 640*352)。
2. 模型加载失败
问题:模型文件损坏或路径错误。
解决方案:
- 检查模型文件完整性:
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B --resume-download - 确保
--ckpt_dir指向正确的模型目录。
3. 生成视频质量不佳
问题:生成的视频模糊或失真。
解决方案:
- 调整提示词(
--prompt)以提供更明确的描述。 - 检查输入图像的分辨率是否匹配生成分辨率(
--size)。
4. 多GPU运行效率低
问题:多GPU运行时速度提升不明显。
解决方案:
- 确保所有GPU型号一致,避免性能瓶颈。
- 检查
--ulysses_size是否与GPU数量匹配。
性能对比表格
以下为不同GPU配置下的性能对比:
| GPU型号 | 单GPU时间 (s) | 多GPU时间 (s) | 显存占用 (GB) |
|---|---|---|---|
| RTX 4090 | 120 | 30 | 24 |
| A100 80GB | 90 | 20 | 80 |
| V100 32GB | 150 | 40 | 32 |
流程图:性能优化流程
flowchart TD
A[启动任务] --> B{显存是否足够?}
B -->|是| C[直接运行]
B -->|否| D[启用显存优化参数]
D --> E[运行任务]
E --> F{性能是否达标?}
F -->|是| G[完成]
F -->|否| H[调整分辨率或提示词]
H --> E
通过以上优化和问题解决方案,可以显著提升Wan2.2-TI2V-5B的运行效率和生成质量。
Wan2.2-TI2V-5B是一个强大的文本-图像到视频生成模型,支持720P分辨率的视频生成。通过合理的环境配置和性能优化,用户可以在单GPU或多GPU环境下高效运行该模型,生成高质量的视频内容。文章提供了详细的部署步骤、推理方法和问题解决方案,帮助用户顺利完成模型的部署与运行。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00