LyCORIS项目中BOFT内存优化问题分析与解决方案

2025-07-02 22:31:01作者：劳婵绚Shirley

背景介绍

LyCORIS是一个用于稳定扩散模型微调的开源项目，近期引入了BOFT（Butterfly Orthogonal Fine-Tuning）这一新型微调算法。然而在实际应用中，用户反馈在8GB显存的GPU上运行BOFT时会出现内存不足的问题。

BOFT内存消耗分析

BOFT算法相比传统的Diag-OFT算法具有更高的内存需求，这是由其算法特性决定的：

矩阵分解方式：BOFT使用蝴蝶分解结构，需要维护更多的中间变量
计算复杂度：在特征变换过程中会产生较大的临时张量
全矩阵运算：当前实现强制使用完整矩阵运算以保证信息完整性

测试数据显示，在相同配置下：

BOFT消耗约5472MB显存
Diag-OFT仅需3730MB显存

内存优化方案

针对内存问题，LyCORIS开发团队提供了多种优化策略：

1. 梯度检查点技术

启用梯度检查点可以显著降低内存占用，这是深度学习训练中常用的内存优化技术。测试表明，配合梯度检查点后，BOFT的内存占用可降至5472MB。

2. 混合精度训练

使用FP16混合精度训练可以进一步减少内存消耗：

纯FP16模式：内存占用约5472MB
FP8基础模式（需硬件支持）：内存可进一步降低

3. 注意力层专用预设

使用preset=attn-only参数可以仅对注意力层应用BOFT，大幅减少参数量：

无优化：约7000MB
配合梯度检查点：2970-3674MB

未来优化方向

LyCORIS团队计划从以下方面进一步优化BOFT的内存效率：

最大m值限制：允许用户自定义分解深度，在内存和信息量间取得平衡
自定义反向传播：参考LoHa算法的优化经验，实现更高效的反向计算
选择性应用：提供更多预设选项，让用户灵活选择应用BOFT的模型部分

实践建议

对于8GB显存设备的用户，推荐以下配置组合：

启用梯度检查点
使用FP16混合精度
选择attn-only预设
适当降低batch size或分辨率

通过这些优化，可以在有限显存条件下成功运行BOFT微调，同时保持模型性能。随着项目的持续发展，预计BOFT的内存效率还将得到进一步提升。

LyCORIS

Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion.

项目地址：https://gitcode.com/gh_mirrors/ly/LyCORIS

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

360

226

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

LyCORIS项目中BOFT内存优化问题分析与解决方案

背景介绍

BOFT内存消耗分析