SD.Next项目在AMD GPU上使用DirectML后端的问题分析与解决方案

2025-06-05 08:05:17作者：邵娇湘

SD.Next是一款强大的扩散模型工具箱，集成了先进的特性与多样的模型支持，为创意生成带来无限可能。该开源项目拥抱多样性，兼容包括Stable Diffusion、LCM、Kandinsky等在内的众多模型，并且支持文本到图像、图像处理乃至视频转换的控制网路技术。其亮点在于跨平台运行能力，覆盖Windows、Linux、MacOS及不同GPU厂商，自动调优确保最佳性能。现代化UI、内置队列管理与自动化更新机制让每一次创作都流畅高效。无论是专业艺术家还是AI爱好者，SD.Next都是探索人工智能艺术不可多得的利器。加入这个活跃的社区，解锁创意的新纪元。

项目地址：https://gitcode.com/GitHub_Trending/au/automatic

问题背景

SD.Next是一个基于Stable Diffusion的开源项目，为用户提供了强大的图像生成功能。当用户在AMD显卡（如RX 580）上尝试使用DirectML后端运行SDXL模型时，会遇到一系列兼容性和内存管理问题。

关键错误分析

1. 模型加载失败

日志显示的主要错误是"Torch not compiled with CUDA enabled"，这表明系统尝试使用CUDA后端而非DirectML。这源于SDXL模型与DirectML后端在模型卸载功能上的不兼容性。

2. 内存分配问题

当尝试移动模型到GPU时，系统报告"Could not allocate tensor with 52428800 bytes"，表明显存不足。RX 580的8GB显存对于SDXL模型来说较为紧张。

3. 设备参数错误

"devices' argument must be DML"错误表明某些操作没有正确指定使用DirectML后端。

根本原因

DirectML版本过旧：当前使用的DirectML版本已有一年未更新，缺乏对新特性的支持。
SDXL模型需求：SDXL模型对显存要求较高，在AMD显卡上需要特殊优化。
后端配置冲突：系统在某些情况下仍尝试使用CUDA而非DirectML。

解决方案

1. 禁用模型卸载功能

在SD.Next的设置中：

导航至"Diffuser Settings"
禁用所有与"offload"相关的选项
可以保留"move model"选项

2. 显存优化配置

对于RX 580等8GB显存的AMD显卡：

使用--lowvram参数启动
在设置中降低批处理大小
考虑使用512x512而非更高分辨率

3. 确保正确使用DirectML

启动时明确指定--use-directml参数
确认安装的是DirectML兼容的Torch版本

技术细节

SDXL模型在DirectML后端下的特殊要求：

不支持模型分段卸载(sequential CPU offload)
需要连续显存空间
对内存对齐有特定要求

性能对比

与A1111和WebUI Forge相比，SD.Next在DirectML后端下：

提供了更细粒度的内存控制选项
需要更精确的配置调优
对AMD显卡的支持仍在完善中

最佳实践建议

对于AMD显卡用户：
- 优先使用SD 1.5模型而非SDXL
- 如果必须使用SDXL，考虑降低分辨率
定期检查：
- DirectML驱动更新
- SD.Next项目更新
监控显存使用：
- 关注日志中的显存使用情况
- 根据实际使用调整参数

结论

虽然SD.Next在AMD显卡上使用DirectML后端运行SDXL模型存在挑战，但通过合理配置可以解决大部分问题。随着DirectML生态的完善，预期未来兼容性和性能将得到进一步改善。用户应根据自身硬件条件选择合适的模型和配置参数，以获得最佳体验。

automatic

项目地址：https://gitcode.com/GitHub_Trending/au/automatic

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

692