Stable Diffusion WebUI Forge 项目在 AMD GPU 上的 NF4 量化模型部署指南

2025-05-22 20:56:09作者：俞予舒Fleming

问题背景

在 Stable Diffusion WebUI Forge 项目中，用户尝试在 AMD RX6800XT 显卡上运行 Flux NF4 量化模型时遇到了矩阵维度不匹配的错误。这个问题主要出现在使用 ROCm 平台的 AMD GPU 上，而 NVIDIA GPU 用户则不会遇到此类问题。

技术分析

NF4 量化模型需要依赖 BitsandBytes (BnB) 库进行高效推理，而该库长期以来主要针对 CUDA 平台优化。对于 AMD GPU 用户，需要特别注意以下几点：

ROCm 兼容性：从 ROCm 6.2 开始，官方已支持 BitsandBytes 模型量化功能
架构差异：不同代次的 AMD GPU 需要指定正确的 GFX 架构标识符
编译依赖：需要安装 hipBLAS、hipBLASLt 等 ROCm 数学库

解决方案

环境准备

首先需要确保系统已安装以下组件：

ROCm 6.1 或更高版本
Python 3.10
PyTorch 的 ROCm 版本（推荐使用 nightly 构建）

编译安装 BitsandBytes

对于 AMD GPU 用户，需要从源码编译支持 ROCm 的 BitsandBytes：

# 安装编译依赖
sudo apt-get install -y hipblas hipblaslt hiprand hipsparse hipcub rocthrust-dev

# 克隆源码
git clone --depth 1 -b multi-backend-refactor https://github.com/bitsandbytes-foundation/bitsandbytes.git
cd bitsandbytes

# 安装 Python 依赖
pip3 install -r requirements-dev.txt

# 配置和编译
cmake -DCOMPUTE_BACKEND=hip -S . -DBNB_ROCM_ARCH=gfx1030  # 根据实际 GPU 架构调整
make
python3.10 setup.py bdist_wheel --universal

架构适配指南

不同 AMD GPU 需要指定对应的 GFX 架构标识符：

GPU 系列	架构标识符
RX 6000 系列	gfx1030
RX 7000 系列	gfx1100

性能优化建议

使用 ROCm 6.2 或更高版本
确保安装了对应版本的 PyTorch nightly 构建
对于 RX 7000 系列显卡，可能需要设置环境变量 HSA_OVERRIDE_GFX_VERSION=11.0.0

常见问题解决

矩阵维度错误

若遇到 "mat1 and mat2 shapes cannot be multiplied" 错误，通常表明：

BitsandBytes 未正确编译或安装
使用了不兼容的模型版本
ROCm 版本与 PyTorch 版本不匹配

设备函数无效错误

"HIP error: invalid device function" 错误通常由以下原因导致：

编译时指定了错误的 GFX 架构
ROCm 运行时与编译环境版本不一致

块大小不支持错误

"The blockwise of 64 is not supported" 表明当前安装的 BitsandBytes 版本不支持所需的块大小，解决方案包括：

使用支持的块大小参数
更新到最新版本的 BitsandBytes

结论

通过正确编译和配置支持 ROCm 的 BitsandBytes 库，AMD GPU 用户可以在 Stable Diffusion WebUI Forge 项目中成功运行 NF4 量化模型。虽然目前性能可能不如 NVIDIA 平台，但随着 ROCm 生态的不断完善，AMD GPU 在 AI 推理领域的表现将持续提升。建议用户关注 ROCm 和 PyTorch 的更新，及时获取性能优化和新特性支持。

stable-diffusion-webui-forge

为Stable Diffusion WebUI提供开发便利，优化资源管理，提升推理速度，支持实验性功能研究，兼容主流扩展与模型格式。

项目地址：https://gitcode.com/GitHub_Trending/st/stable-diffusion-webui-forge

登录后查看全文