SDXL在kohya-ss项目中文本编码器自注意力层训练问题分析

2025-06-04 01:17:03作者：瞿蔚英Wynne

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

在kohya-ss项目的SDXL模型训练过程中，用户发现了一个关于文本编码器(Text Encoder)自注意力层(self_attn)训练的技术问题。这个问题涉及到LoRA(Low-Rank Adaptation)训练过程中不同层参数的选择性更新机制。

问题现象

在较新版本的SDXL训练脚本中，文本编码器仅训练MLP(多层感知机)层，而自注意力层(self_attn)相关参数未被纳入训练范围。这与早期版本的行为形成对比，早期版本会训练文本编码器的全部层，包括自注意力层。

具体表现为：

预期应训练的参数包括MLP层和自注意力层的全部投影矩阵(q_proj, k_proj, v_proj, out_proj)
实际训练中仅包含MLP层的fc1和fc2参数

技术背景

SDXL模型中的文本编码器基于Transformer架构，包含多层自注意力机制和前馈网络(MLP)。在LoRA微调中，通常会对这些层进行低秩适配，以减少训练参数并防止过拟合。

自注意力层包含四个关键投影矩阵：

Q(query)投影
K(key)投影
V(value)投影
输出投影

这些投影矩阵在文本理解中起着关键作用，控制着token之间的注意力权重分配。

影响分析

仅训练MLP层而忽略自注意力层可能导致：

模型对文本提示的理解能力受限
文本-图像对齐效果下降
微调后的模型在特定概念上的表现不如预期

解决方案

对于使用LyCORIS(LoCon/LoKR)等高级适配方法的用户，可以尝试以下解决方案：

更新lyco相关软件包至最新版本
手动修改预设文件，将所有"CLIPAttention"重命名为"CLIPSdpaAttention"
考虑使用完整微调(full finetune)替代LoRA，特别是当训练数据充足时

最佳实践建议

在开始训练前，检查训练脚本生成的参数列表，确认所有预期层都被包含
对于关键应用场景，建议对比新旧版本的训练效果
考虑使用混合训练策略，如同时使用LoCon和LoKR方法
注意训练过程中的缓存问题，必要时清除metadata_cache并重新验证

这个问题反映了深度学习框架在版本迭代过程中可能出现的兼容性问题，提醒开发者在升级版本时需要全面验证各组件功能是否保持一致。

sd-scripts

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

115

141