Stable Diffusion WebUI DirectML项目中的Token Merge优化问题分析

2025-07-04 13:07:36作者：吴年前Myrtle

探索 Stable Diffusion 的 Web 界面，专为 AMD GPU 设计！一键安装，轻松运行。享受原生的文本转图像和图像转图像模式，外画、内补、色彩素描等创意功能。利用关注点控制模型注意力，实时预览生成过程。集成 GFPGAN、代码恢复工具等增强特性，支持自定义 Python 代码执行，打造个性化艺术作品。还能进行批量处理和无限生成选项，让你的创造力无限飞翔！

项目地址：https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-directml

在Stable Diffusion WebUI DirectML项目中，用户报告了一个与Token Merge优化相关的严重问题。当用户尝试在优化设置中启用Token Merge功能并提高合并比例时，系统会抛出"RuntimeError: unknown error"错误，导致无法正常生成图像。

问题根源

经过技术分析，该问题的根本原因在于DirectML后端对某些PyTorch操作的支持不足。具体表现为：

DirectML目前不支持gather操作，这是Token Merge实现中的关键操作之一
DirectML对scatter操作的支持也存在限制，无法处理部分修改维度的场景

这些限制导致在使用DirectML后端时，Token Merge优化功能无法正常工作。错误堆栈显示，问题发生在tomesd/merge.py文件中的bipartite_soft_matching_random2d函数内，当尝试执行gather操作时系统抛出未知错误。

解决方案建议

对于使用Navi系列显卡的用户，可以考虑以下替代方案：

使用ZLUDA作为替代后端，它提供了更完整的CUDA兼容性
暂时禁用Token Merge优化功能，等待DirectML后端的更新
考虑使用其他优化方法，如xformers（如果可用）或内存优化选项

技术背景

Token Merge是一种通过合并注意力机制中的token来优化计算性能的技术。它通过减少需要处理的token数量来降低计算复杂度，从而提升生成速度。然而，这种优化依赖于特定的张量操作，如gather和scatter，这些操作在某些后端（如DirectML）中的实现尚不完善。

影响范围

该问题主要影响：

使用AMD显卡并通过DirectML后端运行Stable Diffusion的用户
尝试启用Token Merge优化功能的用户
需要高性能生成但受限于硬件兼容性的场景

未来展望

随着DirectML后端的持续发展，预计未来版本将逐步增加对更多PyTorch操作的支持。开发者也可能会针对DirectML的特定限制优化Token Merge的实现方式，使其能够在更多硬件配置上稳定运行。

stable-diffusion-webui-directml

项目地址：https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-directml

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781