SimpleTuner项目中SD3模型全参数微调的学习率优化实践

2025-07-03 06:56:47作者：裴麒琰

背景介绍

在Stable Diffusion 3(简称SD3)模型的全参数微调(full finetuning)过程中，学习率(LR)的选择对训练效果有着至关重要的影响。本文基于SimpleTuner项目的实践经验，探讨SD3模型全参数微调时的学习率设置策略。

学习率设置的挑战

在SD3模型的全参数微调中，开发者遇到了几个关键现象：

当使用1e-6的学习率时，模型在4000步训练后几乎看不到明显变化
将学习率提高到1e-5后，模型开始出现轻微变化
使用1e-4的高学习率时，模型风格开始有所改进，但学习速度仍然较慢

值得注意的是，1e-4的学习率对于SD1.5或SDXL模型来说通常会导致模型"炸毁"(nuked)，但在SD3上却表现出相对稳定的训练过程。

BitFit技术的影响

SimpleTuner项目在全模型微调时默认启用了BitFit技术，这是一种特殊的微调策略：

冻结模型所有权重参数
仅调整模型的偏置(bias)项
允许使用更高的学习率而不易导致模型崩溃

这种技术源自论文《BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models》，它通过限制可训练参数的范围，实现了更稳定的微调过程。

训练策略建议

基于实践经验，我们推荐以下SD3全参数微调策略：

禁用BitFit：通过注释掉export USE_BITFIT=true来关闭BitFit，实现真正的全参数微调
学习率选择：从1e-5开始尝试，逐步调整
监控指标：关注模型输出的以下退化迹象(按出现顺序)：
- 开始生成方形网格状无意义图案
- 失去深度感
- 对比度下降
- 提示词跟随能力减弱

训练观察

在全参数微调模式下，模型行为表现出两个极端：

学习停滞：模型似乎对训练数据没有反应
突然崩溃：模型迅速过拟合训练数据中最差的部分，导致质量急剧下降

这种"全有或全无"的特性使得SD3的全参数微调比之前的Stable Diffusion版本更具挑战性。

实践建议

对于希望进行SD3全参数微调的开发者，我们建议：

从小学习率开始(1e-6)，逐步提高
密切监控验证集输出质量
考虑使用梯度累积来增大有效batch size
对于风格微调，可以优先尝试LoRA等参数高效微调方法
准备充足的高质量训练数据(至少数千张精心筛选的图片)

通过合理的超参数设置和训练策略，开发者可以在SD3上实现有效的全参数微调，获得理想的风格或概念迁移效果。

SimpleTuner

A general fine-tuning kit geared toward Stable Diffusion 2.1 and SDXL.

项目地址：https://gitcode.com/GitHub_Trending/si/SimpleTuner

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch