PyTorch Lightning中实现双模型权重检查点的自定义保存策略

2025-05-05 12:00:16作者：田桥桑Industrious

在深度学习模型训练过程中，模型检查点(Model Checkpoint)是一个至关重要的功能，它能够保存训练过程中的中间状态，防止意外中断导致的数据丢失。PyTorch Lightning作为PyTorch的高级封装框架，提供了强大的ModelCheckpoint回调功能。但在某些特殊场景下，开发者可能需要同时保存原始模型权重和经过特定转换后的权重版本。

为什么需要双权重检查点

在实际项目中，我们经常会遇到以下需求场景：

需要保存原始权重用于后续继续训练
同时需要保存经过特定处理后的权重用于推理部署
处理过程依赖于训练时的上下文信息，难以在加载检查点后重现

传统做法是先保存原始检查点，然后在加载时应用转换函数。但这种方法存在两个主要问题：一是转换过程可能依赖训练时的临时变量；二是增加了额外的处理步骤，不够自动化。

PyTorch Lightning的解决方案

PyTorch Lightning的灵活架构允许我们通过自定义回调实现这一需求。核心思路是：

使用两个独立的ModelCheckpoint实例
一个保存原始权重
另一个通过自定义逻辑保存转换后的权重

实现细节

自定义检查点回调

我们可以创建一个继承自ModelCheckpoint的自定义回调类，在其中添加转换逻辑：

class CustomModelCheckpoint(ModelCheckpoint):
    def _save_checkpoint(self, trainer, filepath):
        # 设置标志位通知模型需要保存转换后的权重
        trainer.lightning_module.save_transformed_model = True
        super()._save_checkpoint(trainer, filepath)

模型模块的配合

在LightningModule中实现权重转换逻辑：

class MyLightningModule(LightningModule):
    def __init__(self):
        super().__init__()
        self.save_transformed_model = False  # 初始化标志位
    
    def on_save_checkpoint(self, checkpoint):
        if self.save_transformed_model:
            # 应用权重转换函数
            checkpoint["state_dict"] = self.transform_weights(checkpoint["state_dict"])
            self.save_transformed_model = False  # 重置标志位
    
    def transform_weights(self, state_dict):
        # 实现具体的权重转换逻辑
        transformed_state = {}
        for k, v in state_dict.items():
            transformed_state[k] = v * 0.5  # 示例：简单的权重缩放
        return transformed_state

训练器配置

最后，在Trainer中配置两个回调实例：

# 常规检查点回调
checkpoint1 = ModelCheckpoint(
    dirpath="checkpoints",
    filename="original-{epoch}",
    save_top_k=3
)

# 自定义转换权重检查点回调
checkpoint2 = CustomModelCheckpoint(
    dirpath="checkpoints",
    filename="transformed-{epoch}",
    save_top_k=3
)

trainer = Trainer(
    callbacks=[checkpoint1, checkpoint2],
    max_epochs=10
)