SD-Scripts项目中VRAM使用异常问题的技术分析

2025-06-04 21:31:59作者：袁立春Spencer

问题背景

在SD-Scripts项目使用过程中，发现一个有趣的现象：添加--console_log_file参数会显著增加VRAM使用量。经过深入分析，发现这实际上是由于随机种子变化导致的VRAM使用波动，而非日志文件参数本身的问题。

现象描述

用户在使用SD-Scripts进行SDXL模型微调训练时，发现：

不添加--console_log_file参数时，能够以batch size=8进行bf16全精度微调
添加该参数后，即使batch size降为1也会出现VRAM不足
进一步测试发现，问题根源在于随机种子变化导致VRAM使用量波动

技术分析

随机种子对VRAM使用的影响

通过大量测试发现，不同的随机种子会导致VRAM使用量出现显著差异：

在batch size=4的情况下，VRAM使用量波动范围达到68%-93%
稳定后的VRAM使用量也存在79%-83%的波动
batch size=8时，约31%的随机种子会导致OOM错误

这种波动在aspect ratio bucketing（长宽比分桶）功能开启时尤为明显。理论上，虽然不同分桶的VRAM使用量会有所不同，但峰值VRAM使用应该保持稳定。

VAE编码阶段的VRAM问题

OOM错误主要发生在VAE编码阶段，具体表现为：

错误发生在VAE的resnet模块的forward计算中
系统尝试分配约2GB的显存时失败
使用FP16优化的VAE模型（madebyollin/sdxl-vae-fp16-fix）仍会出现此问题

Deepspeed的影响

测试发现Deepspeed Stage 2对VRAM使用有显著影响：

没有Deepspeed时，batch size=1都无法运行
使用Deepspeed后，batch size=8也能完成训练
Deepspeed似乎会动态调整显存使用，但存在估计不准确的情况

解决方案

项目维护者提出了以下解决方案：

添加--vae_batch_size参数，控制VAE编码时的批处理大小
该参数允许将大batch拆分为多个小batch进行编码，避免峰值显存过高
对于FP16优化的VAE，建议优先不使用此参数以减少处理时间开销

最佳实践建议

基于测试结果，建议用户：

对于24GB显存的显卡（如3090），batch size=4可能是最佳选择
当出现OOM错误时，可尝试调整随机种子
仅在必要时使用--vae_batch_size参数，并从小值开始尝试
监控训练过程中的显存使用情况，特别是初始阶段

技术启示

这一案例揭示了深度学习训练中几个重要技术点：

随机性对资源使用的影响可能超出预期
显存管理是复杂系统，涉及框架、驱动和硬件的多层交互
混合精度训练和优化器技术（如Deepspeed）能显著提升显存效率
针对特定操作（如VAE编码）的批处理控制是有效的显存优化手段

通过这一问题分析，我们不仅解决了具体的技术问题，也加深了对深度学习训练中资源管理机制的理解。

sd-scripts

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

830

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。