NVlabs/Sana项目训练过程中的显存优化与性能调优实践

2025-06-16 13:28:39作者：何将鹤

训练配置与显存问题分析

在NVlabs/Sana项目的实际训练过程中，用户反馈在48GB显存的A40显卡上，即使设置batch size为1也会出现显存不足(OOM)的问题。通过分析训练日志，我们发现主要瓶颈出现在以下几个环节：

模型规模：Sana_1600M_img1024配置使用的是16亿参数的模型，相比传统SDXL模型更大
特征提取：VAE和文本编码器都在训练过程中实时提取特征，没有使用预计算缓存
优化器选择：默认使用的CAME优化器相比AdamW会占用更多显存

显存优化方案

优化器调整

将优化器从CAME切换为AdamW可以显著降低显存占用。在配置文件中进行如下修改：

train:
  optimizer:
    type: AdamW
    lr: 1.0e-4
    weight_decay: 0.01
    eps: 1.0e-8
    betas: [0.9, 0.999]

这一调整可以使显存占用从接近48GB降低到更可控的水平，为其他操作留出空间。

分桶训练策略

项目中引入了分桶(bucketing)训练策略，这是针对不同分辨率图像的高效训练方法。该策略通过：

将训练图像按长宽比分组
在每个batch中使用相同或相似分辨率的图像
减少因padding导致的显存浪费

实现这一策略需要对训练脚本进行修改，包括创建分桶逻辑和调整数据加载流程。

混合精度训练

使用BF16混合精度训练可以进一步优化显存使用：

model:
  mixed_precision: bf16

需要注意的是：

从FP16切换到BF16时，训练需要重新开始
不需要重新计算VAE的潜在特征
优化器本身不需要改为BF16版本

训练性能分析

损失函数特性

Sana项目采用了不同于传统DDPM的流匹配(Flow Matching)训练策略，这导致：

最终收敛的损失值较高(1024px约0.7，512px约0.8)
与SDXL(约0.13)等模型的损失值不可直接比较
属于正常现象，与模型性能无直接关联

学习率设置

对于包含新概念的数据集，建议使用较高的学习率(1e-4)。实际训练中发现：

学习率低于5e-5时模型学习速度明显变慢
需要约10,000步才能开始掌握基本概念
高质量与低质量图像的对比训练可以带来一定改善

渐进式训练策略

针对显存限制，可以采用渐进式训练方法：

先用小数据集(4k图像)训练4个epoch
分析结果后调整参数(如学习率)
逐步添加新数据(每次增加2k图像)
重复训练4-8个epoch

这种方法模拟了人类渐进学习的过程，相比一次性大规模训练更适合资源有限的情况。

总结与建议

NVlabs/Sana项目作为大规模扩散模型，对硬件资源要求较高。通过优化器调整、分桶策略和混合精度训练可以有效降低显存需求。对于资源有限的开发者，建议：

优先使用AdamW优化器
启用分桶训练策略
考虑使用BF16混合精度
采用渐进式训练方法
合理设置学习率(1e-4为佳)

这些优化措施可以使16亿参数的模型在48GB显存的显卡上稳定训练，为研究者提供了可行的解决方案。

Sana

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

项目地址：https://gitcode.com/GitHub_Trending/sana/Sana

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。