CogVideo项目在NPU设备上的优化器选择与多卡训练方案

2025-05-21 10:16:37作者：段琳惟

text and image to video generation: CogVideoX (2024) and CogVideo (ICLR 2023)

项目地址：https://gitcode.com/GitHub_Trending/co/CogVideo

背景介绍

在深度学习模型训练过程中，优化器的选择对模型性能有着重要影响。CogVideo作为THUDM开发的大规模视频生成模型，其训练过程通常使用FusedEmaAdam优化器以获得更好的训练效果。然而，当我们将训练环境迁移到NPU设备时，会遇到优化器兼容性问题。

NPU设备上的优化器替代方案

FusedEmaAdam优化器依赖于CUDA环境，这在NPU设备上不可用。针对这一问题，技术团队给出了明确的解决方案：

AdamW优化器替代方案：在NPU设备上，可以直接使用标准的AdamW优化器替代FusedEmaAdam。AdamW是Adam优化器的改进版本，加入了权重衰减正则化，在大多数情况下能够提供相似的训练效果。
实现差异：虽然FusedEmaAdam通过CUDA实现了算子融合加速，但在NPU环境下，使用AdamW虽然可能损失部分性能优势，但能够保证训练的正常进行。

多NPU卡训练方案

对于拥有多张NPU卡的用户，技术团队还提供了多卡训练的建议方案：

分布式训练配置：需要正确设置分布式训练的环境变量，包括：
- WORLD_SIZE：全局进程数量
- RANK：当前进程的全局排名
- LOCAL_RANK：当前节点上的进程排名
- LOCAL_WORLD_SIZE：当前节点上的进程数量
启动方式：技术团队表示将很快提供专门的多卡训练脚本，用户可以通过该脚本自动处理多卡训练的配置问题。

实践建议

对于希望在NPU设备上训练CogVideo模型的用户，建议：

首先将优化器替换为AdamW
等待官方发布多卡训练脚本，或根据分布式训练原理自行配置多卡环境
监控训练过程中的性能指标，必要时调整学习率等超参数

通过以上方案，用户可以在NPU设备上顺利完成CogVideo模型的训练任务，虽然可能损失部分CUDA优化带来的性能优势，但整体训练流程可以得到保证。

text and image to video generation: CogVideoX (2024) and CogVideo (ICLR 2023)

项目地址：https://gitcode.com/GitHub_Trending/co/CogVideo

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

cangjie_runtime

仓颉编程语言运行时与标准库。

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。