ComfyUI性能优化：解决L20 GPU生成速度慢的问题

2025-04-30 17:03:02作者：凌朦慧Richard

The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

项目地址：https://gitcode.com/GitHub_Trending/co/ComfyUI

在AI图像生成领域，ComfyUI作为一款流行的开源工具，其性能表现直接影响用户体验。近期有用户反馈在使用NVIDIA L20 GPU时遇到了生成速度异常缓慢的问题，本文将深入分析这一现象并提供有效的解决方案。

问题现象分析

用户在使用ComfyUI时发现，在相同分辨率、模型和采样器设置下，ComfyUI的生成速度仅为1.6 it/s，而WebUI则能达到6.2 it/s，性能差距达到4倍。更值得注意的是，ComfyUI运行时GPU利用率仅维持在70%左右，而WebUI则能充分利用100%的GPU资源。

技术背景

ComfyUI默认启用了xformers加速和CUDA内存管理优化功能。xformers是一个用于优化注意力机制的库，而CUDA内存管理则涉及GPU内存的分配策略。这些优化在大多数情况下能提升性能，但在特定硬件配置下可能适得其反。

解决方案探索

经过多次测试验证，发现以下方法能有效解决性能问题：

禁用xformers：通过启动参数--disable-xformers关闭xformers加速，但测试表明这对性能提升效果有限。
禁用CUDA内存管理：使用--disable-cuda-malloc参数关闭CUDA内存管理优化后，性能得到显著提升，生成速度提高近4倍，达到与WebUI相当的水平。

实施建议

对于使用NVIDIA L20 GPU遇到性能问题的用户，建议按以下步骤操作：

修改ComfyUI启动命令，添加--disable-cuda-malloc参数
监控GPU利用率，确认是否达到接近100%
对比生成速度，验证性能提升效果

原理分析

CUDA内存管理优化(cudaMallocAsync)在某些GPU架构上可能导致内存分配策略不够高效，造成GPU计算资源闲置。禁用这一功能后，系统会采用更传统的内存分配方式，反而能更好地利用GPU计算资源。

总结

ComfyUI的性能表现与硬件配置密切相关。当遇到生成速度异常缓慢的问题时，调整内存管理策略往往比关闭计算加速更有效。这一经验不仅适用于L20 GPU，对其他遇到类似性能问题的硬件配置也有参考价值。

The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

项目地址：https://gitcode.com/GitHub_Trending/co/ComfyUI

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统