Wan项目中使用Deepspeed Stage 3训练的技术探索

2025-05-22 01:35:05作者：裘晴惠Vivianne

背景介绍

Wan项目是一个基于深度学习的视频处理框架，在训练大规模模型时面临着显存不足的挑战。近期有开发者尝试在Wan项目中使用Deepspeed的Stage 3训练模式配合offload技术，但遇到了兼容性问题。

Deepspeed Stage 3的技术特点

Deepspeed Stage 3是微软开发的深度学习优化库中的一种高级训练模式，主要特点包括：

完全分片的数据并行(ZeRO-3)：将模型参数、梯度和优化器状态全部分片到各个GPU上
CPU offload功能：可以将部分计算卸载到CPU内存，进一步节省GPU显存
高效的通信机制：通过优化通信模式减少GPU间的数据传输量

Wan项目中的替代方案

虽然Deepspeed Stage 3在理论上非常适合Wan项目的大规模训练需求，但目前Wan项目团队采用了Fairscale库来实现类似功能。Fairscale是Facebook开发的PyTorch扩展库，提供了FSDP(完全分片数据并行)功能，相当于ZeRO-3的实现。

Fairscale的主要优势包括：

与PyTorch生态系统的深度集成
更轻量级的实现
对特定硬件配置的更好兼容性

技术选型建议

对于希望在Wan项目中使用类似ZeRO-3功能的开发者，可以考虑以下方案：

使用项目推荐的Fairscale方案
等待Deepspeed官方解决兼容性问题
自行开发适配层，解决Wan与Deepspeed的兼容性问题

未来展望

随着大模型训练需求的增长，Wan项目很可能会在后续版本中增加对更多分布式训练框架的支持。开发者可以关注项目的更新动态，获取最新的分布式训练功能支持情况。

对于需要立即使用ZeRO-3功能的开发者，建议优先尝试Fairscale方案，它已经在Wan项目中得到了验证和支持。

Wan2.1

Wan: Open and Advanced Large-Scale Video Generative Models

项目地址：https://gitcode.com/gh_mirrors/wa/Wan2.1

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力