ControlNet训练过程中的权重文件保存机制解析

2025-05-04 19:03:32作者：鲍丁臣Ursa

Let us control diffusion models!

项目地址：https://gitcode.com/gh_mirrors/co/ControlNet

训练权重保存位置与机制

在使用ControlNet进行模型训练时，训练过程中生成的权重文件会被自动保存在名为lightning_logs的目录中。这个目录是PyTorch Lightning框架的标准输出目录，ControlNet基于该框架构建，因此遵循了这一约定。

文件格式说明

训练过程中主要会生成两种类型的权重文件：

.ckpt文件：这是PyTorch Lightning的标准检查点文件格式，包含了模型的状态字典、优化器状态、当前epoch等信息。这种格式特别适合训练中断后恢复训练的场景。
.pth文件：这是PyTorch的标准权重保存格式，通常只包含模型的状态字典。在ControlNet的训练过程中，如果需要.pth格式的权重，通常需要从.ckpt文件中提取模型部分并单独保存。

训练中断处理

当训练过程被手动终止时（例如在10个epoch后停止），PyTorch Lightning的检查点机制会确保最近的训练状态被保存下来。具体表现为：

最后一次完成的epoch对应的模型状态会被保存
优化器的状态也会被保留
训练的各种元数据（如学习率、batch大小等）都会被记录

从检查点恢复训练

用户可以利用保存的.ckpt文件恢复训练，只需在训练命令中指定--resume_from_checkpoint参数并指向相应的.ckpt文件即可。这种机制对于大规模训练任务特别有用，可以有效应对训练中断的情况。

最佳实践建议

定期监控lightning_logs目录中的文件变化
对于重要训练任务，建议设置自定义的检查点回调，以控制保存频率和保留的检查点数量
如果需要.pth格式的权重，可以编写简单的脚本从.ckpt文件中提取模型部分
训练完成后，可以将最终的检查点转换为.pth格式以便部署使用

通过理解ControlNet的这些训练机制，用户可以更有效地管理训练过程，确保模型权重得到妥善保存，并在需要时能够顺利恢复训练或部署模型。

Let us control diffusion models!

项目地址：https://gitcode.com/gh_mirrors/co/ControlNet

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

flutter_flutter

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

ohos_react_native

React Native鸿蒙化仓库

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力