PyTorch Lightning中周期性保存模型检查点的正确方式

2025-05-05 03:19:14作者：曹令琨Iris

pytorch-lightning是一个高性能深度学习框架，专为训练、微调和部署AI模型设计。具备简洁稳定API，支持多GPU与TPU加速，实现轻松扩展。集成4大核心模块：PyTorch Lightning简化代码结构，分离科学与工程；Lightning Fabric提供专家级控制；Lightning Data快速分布式数据流处理；Lightning Apps助您构建AI产品及ML工作流程。利用自动化的硬件适配能力，减少重复劳动，确保实验可复现性，同时保持PyTorch灵活性，适用于专业研究到实际应用的全场景需求。

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-lightning

在PyTorch Lightning项目中使用ModelCheckpoint回调时，许多开发者会遇到一个常见误区：期望通过设置every_n_epochs参数就能自动保存多个训练过程中的模型检查点，但实际上却只得到了最后一个检查点文件。这种现象并非bug，而是由于对ModelCheckpoint工作机制理解不够深入导致的。

问题现象

开发者通常会这样配置检查点回调：

checkpoint_callback = ModelCheckpoint(
    dirpath='checkpoints/every_10_epochs',
    filename='epoch-{epoch:02d}',
    every_n_epochs=10,
)

预期是在训练过程中每10个epoch保存一个检查点（例如epoch 10、20、30等），但实际运行后发现只保存了最后一个检查点文件。

根本原因

这种现象源于ModelCheckpoint的默认行为：

save_top_k参数默认为1，表示只保留"最优"的1个检查点
每次保存新检查点时，会自动删除之前的检查点
即使设置了every_n_epochs，由于save_top_k=1的限制，系统仍会只保留最新的一个检查点

解决方案

要实现真正周期性保存多个检查点的功能，需要同时配置两个参数：

checkpoint_callback = ModelCheckpoint(
    dirpath='checkpoints/every_10_epochs',
    filename='epoch-{epoch:02d}',
    every_n_epochs=10,
    save_top_k=-1,  # 保存所有检查点
)

其中：

every_n_epochs=10指定保存频率
save_top_k=-1表示保留所有生成的检查点文件（不删除任何检查点）

进阶配置选项

PyTorch Lightning的ModelCheckpoint提供了丰富的配置选项，可以根据不同需求灵活组合：

按指标保存最佳模型：

ModelCheckpoint(
    monitor='val_loss',
    mode='min',
    save_top_k=3  # 只保留验证损失最小的3个检查点
)

结合周期性和最佳模型保存：

ModelCheckpoint(
    every_n_epochs=5,
    save_top_k=3,
    monitor='val_acc',
    mode='max'
)

自定义文件名模板：

ModelCheckpoint(
    filename='model-{epoch}-{val_loss:.2f}'
)

最佳实践建议

对于长期训练任务，建议同时配置周期保存和最佳模型保存
注意检查点文件会占用大量磁盘空间，特别是在保存所有检查点时
可以结合TensorBoard或MLFlow等工具记录训练过程，减少对检查点的依赖
对于生产环境，建议设置save_top_k为合理数值，避免磁盘空间耗尽

理解这些机制后，开发者就能更好地利用PyTorch Lightning的模型检查点功能，在训练过程中保存所需的关键节点模型状态。

pytorch-lightning

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-lightning

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

173

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解