stable-diffusion-webui-amdgpu项目中的ONNX模型批量推理性能优化分析

2025-07-04 02:52:55作者：江焘钦

在stable-diffusion-webui-amdgpu项目中，用户报告了一个关于ONNX模型批量推理性能的问题。当使用DirectML后端并启用Olive优化后的模型时，设置batch_count参数为30会导致推理速度显著下降，从预期的41秒延长到128-129秒。

问题本质分析

经过技术分析，发现性能下降的根本原因在于当前的实现方式：每次批量推理时都会重新加载整个模型。这种设计导致了以下问题：

模型加载开销：每次推理都需要重新初始化模型，造成了不必要的IO和计算资源浪费
内存管理低效：频繁加载/卸载模型无法充分利用GPU内存资源
计算连续性中断：无法维持稳定的计算上下文环境

技术解决方案

项目维护者提出了两种改进方案：

缓存模型实例：通过添加初始化标志位，在首次加载后保留模型实例，避免重复加载
重构代码架构：基于更先进的ONNX实现方案重新设计代码结构

性能优化建议

对于当前版本，用户可以采取以下临时优化措施：

降低batch_count参数值，减少重复加载次数
手动修改代码实现模型实例缓存
考虑使用其他更成熟的ONNX实现分支

技术实现细节

深入分析代码实现，可以看到关键改进点在于：

def create_txt2img_pipeline(self, sampler: SamplerData):
    if self.init_flag == 0:
        self.pipeline = OnnxStableDiffusionPipeline(
            # 初始化参数
        )
        self.init_flag = 1
    return self.pipeline

这种改进虽然简单，但能有效避免重复加载模型，显著提升批量推理性能。

未来优化方向

项目维护者计划进行更彻底的代码重构，包括：

更智能的内存管理策略
优化的计算图执行方式
改进的批处理调度机制

这些改进将进一步提升ONNX模型在AMD GPU上的推理性能，为用户提供更流畅的生成体验。

stable-diffusion-webui-amdgpu

Stable Diffusion web UI

项目地址：https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-amdgpu

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

141

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

557

111