Kohya-ss/sd-scripts项目中LoRA权重训练机制解析

2025-06-04 23:14:29作者：温艾琴Wonderful

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

LoRA训练原理概述

在kohya-ss/sd-scripts项目中，LoRA（Low-Rank Adaptation）是一种高效微调大型预训练模型的技术。它通过在原始模型的权重矩阵旁添加低秩分解矩阵来实现微调，而不是直接修改原始权重。

训练流程详解

模型初始化阶段
项目首先加载预训练的Stable Diffusion模型作为基础模型，然后在这个基础上添加LoRA层。这些LoRA层由两个小型矩阵组成，通过低秩分解的方式实现参数高效微调。
权重冻结机制
在训练过程中，原始模型的权重会被完全冻结（参数不更新），只有LoRA层的权重会参与梯度计算和参数更新。这种设计使得微调过程非常高效，且不会破坏预训练模型已经学习到的知识。
前向传播过程
在前向传播时，系统会将原始模型的权重与LoRA层的权重结合起来计算。具体来说，对于每个包含LoRA的线性层，实际执行的运算可以表示为：
```
W' = W + BA
```
其中W是原始权重矩阵，B和A是LoRA的低秩矩阵，W'是实际使用的权重。
梯度计算与反向传播
在反向传播阶段，只有LoRA矩阵（B和A）会接收梯度并更新。原始权重W的梯度被显式设置为不计算，这确保了预训练知识不会被破坏。

实现细节解析

在代码层面，虽然表面上看模型预测（model_pred）似乎只使用了原始UNet模型，但实际上：

模型包装机制
项目使用了特殊的包装器将LoRA层注入到原始模型中。在训练过程中，这些包装器会自动处理LoRA权重与原权重的结合。
隐式融合计算
当调用unet进行前向传播时，系统会在底层自动将LoRA权重与原始权重融合，因此表面上看起来像是只使用了原始模型。
参数优化隔离
优化器只会接收和更新LoRA层的参数，原始模型参数被排除在优化过程之外，这是通过精心设计的参数过滤机制实现的。

训练效率优势

这种设计带来了几个显著优势：

内存效率
由于只需要存储和更新LoRA参数，显存占用大大降低，使得在消费级GPU上微调大型模型成为可能。
训练速度
需要更新的参数数量大幅减少，训练速度明显提升。
模型稳定性
原始权重保持不变，避免了微调过程中的灾难性遗忘问题。
模块化设计
训练完成后，LoRA权重可以单独保存为小型文件，便于分享和应用。

实际应用建议

对于想要使用或修改这一机制的开发者，建议：

理解LoRA层的注入点和融合方式
熟悉参数冻结和梯度过滤的实现细节
掌握如何配置不同的LoRA秩（rank）参数
了解如何保存和加载独立的LoRA权重

通过这种设计，kohya-ss/sd-scripts项目实现了对Stable Diffusion模型的高效微调，为个性化图像生成提供了强大的技术支持。

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。