Stable Diffusion WebUI DirectML 项目中的 AMD GPU 驱动问题分析与解决方案

2025-07-04 05:59:14作者：申梦珏Efrain

探索 Stable Diffusion 的 Web 界面，专为 AMD GPU 设计！一键安装，轻松运行。享受原生的文本转图像和图像转图像模式，外画、内补、色彩素描等创意功能。利用关注点控制模型注意力，实时预览生成过程。集成 GFPGAN、代码恢复工具等增强特性，支持自定义 Python 代码执行，打造个性化艺术作品。还能进行批量处理和无限生成选项，让你的创造力无限飞翔！

项目地址：https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-directml

问题背景

在使用 Stable Diffusion WebUI DirectML 项目时，部分 AMD GPU 用户可能会遇到模型加载失败的问题。该问题表现为：当使用 --use-directml 参数尝试在 GPU 上运行时，系统会抛出"unknown error"错误，导致模型无法加载；而使用 CPU 模式（通过 --skip-torch-cuda-test 参数）则能够正常运行，尽管速度较慢。

问题现象

用户报告的具体错误表现为：

在 GPU 模式下运行时，系统会在尝试创建因果注意力掩码（causal attention mask）时失败，错误信息为"RuntimeError: unknown error"
ONNX 运行时初始化失败，提示"DLL load failed while importing onnx_cpp2py_export"
错误追踪显示问题出现在 transformers 模块的 _make_causal_mask 函数中
有趣的是，相同的配置在 CPU 模式下可以正常运行，只是性能较低

根本原因分析

经过深入调查，发现问题根源在于 AMD GPU 驱动程序的异常状态。可能的原因包括：

驱动损坏：显卡驱动程序可能在之前的系统更新或软件安装过程中被部分损坏
驱动版本不兼容：安装的驱动程序版本可能与特定 AMD GPU 型号不完全兼容
DirectML 依赖缺失：DirectML 运行时依赖的某些 DirectX 组件可能未正确安装或配置

解决方案

针对这一问题，我们推荐以下解决步骤：

1. 完全卸载现有显卡驱动

建议使用专业的显卡驱动卸载工具（如 AMD Cleanup Utility）或按以下步骤手动卸载：

打开设备管理器
展开"显示适配器"类别
右键点击 AMD 显卡，选择"卸载设备"
勾选"尝试删除此设备的驱动程序"选项
完成卸载后重启系统

2. 安装最新兼容驱动

访问 AMD 官方网站，根据您的具体 GPU 型号下载并安装最新的 WHQL 认证驱动程序。特别注意：

确保下载的是完整版驱动包，而非精简版
安装时选择"自定义安装"，并勾选所有相关组件
对于专业显卡（如 FirePro/W系列），可能需要下载专业版驱动

3. 验证 DirectX 完整性

虽然 DirectX 是 Windows 系统组件，但仍建议验证其完整性：

打开命令提示符（管理员权限）
运行命令：dxdiag
在"显示"选项卡中检查 Direct3D 和 DirectDraw 加速是否已启用
如有问题，可运行系统文件检查器：sfc /scannow

4. 重新配置 Python 环境

有时 Python 虚拟环境中的缓存可能导致问题，建议：

删除项目目录下的 venv 文件夹
重新运行启动脚本（如 webui.bat），让系统自动重建 Python 环境

预防措施

为避免类似问题再次发生，建议：

定期检查并更新显卡驱动
在安装大型软件或系统更新前创建系统还原点
考虑使用驱动管理工具监控驱动状态
保持 Windows 系统更新，确保 DirectX 组件为最新版本

技术细节补充

对于希望深入了解问题的技术人员，以下是更详细的技术背景：

DirectML 是微软提供的机器学习 API，构建在 DirectX 12 之上
AMD GPU 通过其驱动程序的 Direct3D 12 实现支持 DirectML
当驱动异常时，张量操作（如 mask.to(dtype)）可能无法正确执行
ONNX 运行时依赖 DirectML 提供者，驱动问题会导致其初始化失败

结论

AMD GPU 在 Stable Diffusion WebUI DirectML 项目中的运行时错误通常与显卡驱动状态有关。通过彻底清理并重新安装官方认证的驱动程序，大多数情况下可以解决此类问题。保持系统驱动和组件的更新是确保 AI 工作负载稳定运行的关键。

stable-diffusion-webui-directml