SD-Scripts项目中save_last_n_steps参数失效问题解析

2025-06-04 03:14:56作者：何举烈Damon

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

问题背景

在kohya-ss/sd-scripts项目的FLUX分支中，用户报告了一个关于模型检查点保存功能的异常现象。当用户在训练配置中设置了save_last_n_steps = 3参数时，系统并没有按照预期保留最近的3个训练步骤检查点，而是保留了所有生成的检查点文件。

参数功能分析

在模型训练过程中，检查点保存机制对于模型恢复和性能评估至关重要。SD-Scripts项目提供了多个相关参数来控制检查点的保存行为：

epoch：设置总训练轮数
save_every_n_epochs：每隔多少轮保存一次检查点
save_last_n_steps：预期保留最近N个步骤的检查点（但实际存在问题）
save_last_n_epochs：正确保留最近N个轮次的检查点

问题根源

经过项目维护者的确认，问题的根本原因在于参数名称的使用错误。在FLUX分支中，save_last_n_steps参数实际上已被弃用或不再有效，正确的参数名称应为save_last_n_epochs。

解决方案

对于希望控制检查点保留数量的用户，应当：

使用save_last_n_epochs替代save_last_n_steps
参数值设置为3时，系统将自动保留最近的3个检查点
结合save_every_n_epochs参数，可以精确控制检查点的生成和保留策略

实际应用建议

在实际训练过程中，合理的检查点保存策略应考虑以下因素：

存储空间限制：过多的检查点会占用大量磁盘空间
训练中断恢复：保留足够检查点以确保能从最近的进度恢复
模型性能评估：需要保留关键训练阶段的模型用于比较

建议的配置示例：

epoch = 50
save_every_n_epochs = 10
save_last_n_epochs = 3

这种配置将在50轮训练中每10轮保存一次检查点，同时自动清理旧检查点，只保留最近的3个，既保证了训练过程的可恢复性，又避免了存储空间的浪费。

总结

在使用SD-Scripts进行模型训练时，开发者应当注意参数名称的准确性。save_last_n_epochs是控制检查点保留数量的正确参数，而save_last_n_steps在当前版本中已不再适用。正确的参数使用可以确保训练过程的稳定性和存储资源的高效利用。

sd-scripts

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。