stable-diffusion-webui-directml项目中的ONNX模型批量推理优化问题分析

2025-07-04 19:11:52作者：管翌锬

探索 Stable Diffusion 的 Web 界面，专为 AMD GPU 设计！一键安装，轻松运行。享受原生的文本转图像和图像转图像模式，外画、内补、色彩素描等创意功能。利用关注点控制模型注意力，实时预览生成过程。集成 GFPGAN、代码恢复工具等增强特性，支持自定义 Python 代码执行，打造个性化艺术作品。还能进行批量处理和无限生成选项，让你的创造力无限飞翔！

项目地址：https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-directml

在stable-diffusion-webui-directml项目中，当使用DirectML后端配合Olive优化的ONNX模型进行批量图像生成时，存在一个显著的性能问题。本文将深入分析该问题的技术背景、原因及可能的解决方案。

问题现象

当用户将批量计数(batch_count)参数从1增加到30时，系统会出现明显的性能下降。具体表现为：

使用原生Olive优化模型时，生成30张图像耗时约41秒
使用webui界面时，同样的30张图像生成需要128-129秒
该问题在不同GPU硬件(如3080TI和7900XTX)上表现一致

技术分析

通过代码调试和日志分析，发现问题的根本原因在于模型加载机制：

当前实现中，每次生成请求都会重新加载ONNX模型
模型加载操作(load_orm方法)会频繁触发
这种设计导致批量生成时产生大量重复的模型加载开销

解决方案探讨

针对这一问题，可以考虑以下优化方向：

模型缓存机制：实现模型单例模式，首次加载后缓存模型实例
批量处理优化：修改生成逻辑，使用循环处理批量请求而非重新加载
资源管理：在VRAM使用和性能之间取得平衡

实现建议

基于项目现有代码，可以采用如下改进方案：

在模型类中添加初始化标志(init_flag)
首次调用时创建并缓存pipeline实例
后续请求直接复用已加载的模型

这种改进能显著减少重复加载模型的开销，同时保持合理的VRAM使用。对于需要更高性能的用户，建议考虑其他更成熟的ONNX实现方案，这些方案通常具有更完善的批量处理优化。

性能考量

优化后的实现需要注意以下性能因素：

VRAM占用会增加，因为模型会常驻内存
首次生成时间不变，但后续生成速度会显著提升
需要根据用户硬件配置调整默认缓存策略

该优化特别适合需要连续生成多批图像的工作流程，能有效提升整体吞吐量。

stable-diffusion-webui-directml

项目地址：https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-directml

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

339

186

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.35 K

759