DiffSynth-Studio项目中的InfiniteYou模型VRAM优化实践

2025-05-27 08:35:27作者：凌朦慧Richard

背景介绍

在DiffSynth-Studio项目中，InfiniteYou是一个基于扩散模型的图像生成工具，它能够根据文本提示和参考图像生成高质量的输出。然而，该模型对显存(VRAM)的需求较高，即使在配备32GB显存的RTX 5090显卡上运行时，也会遇到CUDA内存不足的问题。

InfiniteYou模型在运行时主要消耗显存的环节包括：

经过实践探索，我们总结出以下有效的VRAM优化策略：

通过设置环境变量PYTORCH_CUDA_ALLOC_CONF为"expandable_segments:True"，启用PyTorch的可扩展内存段分配策略，这可以更灵活地管理显存。

在模型加载前执行显存清理操作：

torch.cuda.empty_cache()
gc.collect()

采用bfloat16半精度浮点数进行计算，显著减少显存占用：

使用CPU offload技术，仅在需要时将模型部分加载到GPU：

pipe.enable_cpu_offload()
pipe.image_proj_model.to("cuda", dtype=torch.bfloat16)

经过上述优化后，模型可以在32GB显存的RTX 5090上稳定运行，生成720p分辨率的图像，速度达到1.36 it/s，显存使用得到有效控制。

这套优化方案不仅适用于InfiniteYou模型，也可推广到其他基于扩散模型的大型图像生成任务中，特别是当面临显存限制时。对于使用类似架构(如Stable Diffusion系列)的项目，这些技术同样具有参考价值。

登录后查看全文