PyTorch Lightning中ModelCheckpoint回调不保存检查点的解决方案

2025-05-05 08:53:04作者：翟萌耘Ralph

pytorch-lightning

pytorch-lightning是一个高性能深度学习框架，专为训练、微调和部署AI模型设计。具备简洁稳定API，支持多GPU与TPU加速，实现轻松扩展。集成4大核心模块：PyTorch Lightning简化代码结构，分离科学与工程；Lightning Fabric提供专家级控制；Lightning Data快速分布式数据流处理；Lightning Apps助您构建AI产品及ML工作流程。利用自动化的硬件适配能力，减少重复劳动，确保实验可复现性，同时保持PyTorch灵活性，适用于专业研究到实际应用的全场景需求。

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-lightning

在使用PyTorch Lightning进行深度学习模型训练时，ModelCheckpoint回调是一个非常重要的工具，它可以帮助我们自动保存训练过程中的最佳模型。然而，在实际使用中，开发者可能会遇到ModelCheckpoint回调不按预期工作的问题。

问题现象

在PyTorch Lightning项目中，配置了ModelCheckpoint回调来监控验证集的SSIM指标，并设置了保存最佳3个模型和最后一个模型。但在实际训练完成后，发现只有通过trainer.save_checkpoint()手动保存的最后一个模型存在，而ModelCheckpoint回调应该自动保存的检查点文件却缺失了。

问题分析

经过深入排查，发现问题的根源在于优化器的使用方式。在自定义的训练步骤(training_step)中，开发者使用了self.optimizers(use_pl_optimizer=False)来获取优化器，这会导致PyTorch Lightning的内部机制无法正确跟踪优化器状态，进而影响ModelCheckpoint回调的正常工作。

解决方案

将训练步骤中的优化器获取方式修改为self.optimizers(use_pl_optimizer=True)即可解决此问题。这个修改确保了PyTorch Lightning能够正确管理优化器状态，使得ModelCheckpoint回调能够按预期工作。

深入理解

PyTorch Lightning的ModelCheckpoint回调依赖于框架对训练过程的完整监控。当使用use_pl_optimizer=False时，开发者实际上绕过了Lightning对优化器的封装，直接使用了原始的PyTorch优化器。这会导致：

Lightning无法正确跟踪优化器状态
模型保存和恢复时可能出现不一致
某些依赖于优化器状态的特性(如学习率调度)可能无法正常工作

最佳实践

在使用PyTorch Lightning时，建议：

尽量使用框架提供的优化器管理方式
除非有特殊需求，否则不要绕过Lightning的优化器封装
在自定义训练步骤时，确保使用use_pl_optimizer=True
定期检查保存的模型文件，确保回调按预期工作

总结

PyTorch Lightning虽然提供了极大的便利性，但在某些自定义程度较高的场景下，开发者需要注意框架的内部机制。特别是在使用ModelCheckpoint等关键回调时，确保遵循框架的最佳实践可以避免许多潜在问题。通过正确使用优化器管理方式，可以保证模型训练和保存的可靠性。

pytorch-lightning

pytorch-lightning是一个高性能深度学习框架，专为训练、微调和部署AI模型设计。具备简洁稳定API，支持多GPU与TPU加速，实现轻松扩展。集成4大核心模块：PyTorch Lightning简化代码结构，分离科学与工程；Lightning Fabric提供专家级控制；Lightning Data快速分布式数据流处理；Lightning Apps助您构建AI产品及ML工作流程。利用自动化的硬件适配能力，减少重复劳动，确保实验可复现性，同时保持PyTorch灵活性，适用于专业研究到实际应用的全场景需求。

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-lightning

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

cangjie_runtime

仓颉编程语言运行时与标准库。