Kohya SS训练脚本中的ZeroDivisionError错误分析与解决方案

2025-06-04 22:34:36作者：沈韬淼Beryl

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

在Kohya SS项目的sd-scripts训练脚本使用过程中，用户可能会遇到一个典型的错误：ZeroDivisionError: integer division or modulo by zero。这个错误通常发生在模型训练的最后阶段，当脚本尝试保存LoRA模型时出现异常。本文将深入分析该错误的成因，并提供有效的解决方案。

错误现象分析

当用户运行训练脚本时，系统会完整执行训练过程，但在即将保存模型时抛出以下关键错误：

ZeroDivisionError: integer division or modulo by zero

回溯信息显示错误发生在sample_images_common函数中，具体是在执行epoch % args.sample_every_n_epochs运算时发生的。这表明程序试图进行除以零的操作。

根本原因

经过技术分析，该问题的根本原因在于采样间隔参数的设置不当：

当sample_every_n_epochs参数被设置为0时，程序会尝试计算epoch % 0，这在数学上是未定义的，导致除以零错误
该参数控制着每隔多少个epoch生成样本图像，设置为0表示"不生成"，但代码逻辑没有正确处理这个特殊情况

解决方案

针对这个问题，我们推荐以下两种解决方案：

方案一：修改采样参数设置

如果需要基于epoch生成样本，应将sample_every_n_epochs设置为正整数（如1表示每个epoch都生成）
如果需要基于训练步数生成样本，可以只设置sample_every_n_steps参数，而完全不设置sample_every_n_epochs参数

方案二：调整训练配置

将训练配置改为单epoch训练（设置max_train_epochs=1）
这样即使sample_every_n_epochs=1也能正常工作
但这种方法会限制基于步数的采样功能

最佳实践建议

明确采样需求：确定是基于epoch还是基于step进行采样
避免参数冲突：不要同时设置sample_every_n_epochs=0和其他采样参数
参数优先级：当需要基于step采样时，建议完全省略sample_every_n_epochs参数
测试验证：在正式训练前，先用小规模数据测试采样功能是否正常工作

技术背景补充

在深度学习训练过程中，采样(sampling)是指定期生成示例图像以监控训练进度的功能。Kohya SS的sd-scripts提供了两种采样触发方式：

基于epoch的采样：适合关注整体训练轮次进展的情况
基于step的采样：适合需要更精细监控训练过程的情况

理解这两种机制的差异有助于用户更好地配置训练参数，避免类似错误的发生。

通过以上分析和解决方案，用户应该能够顺利解决训练过程中遇到的ZeroDivisionError问题，并正确配置采样参数以获得理想的训练监控效果。

sd-scripts

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

454

436

Kohya SS训练脚本中的ZeroDivisionError错误分析与解决方案

错误现象分析

根本原因

解决方案

方案一：修改采样参数设置

方案二：调整训练配置

最佳实践建议

技术背景补充

热门内容推荐

最新内容推荐

项目优选

Kohya SS训练脚本中的ZeroDivisionError错误分析与解决方案

错误现象分析

根本原因

解决方案

方案一：修改采样参数设置

方案二：调整训练配置

最佳实践建议

技术背景补充

相关内容推荐

热门内容推荐

最新内容推荐

项目优选