在nnUNet中实现早停机制的技术解析

2025-06-01 21:36:27作者：廉皓灿Ida

nnUNet

项目地址：https://gitcode.com/gh_mirrors/nn/nnUNet

背景介绍

nnUNet是医学图像分割领域广泛使用的深度学习框架，以其标准化流程和出色的性能著称。在实际训练过程中，经常需要监控模型性能并在适当时候终止训练以避免过拟合，这就是早停(Early Stopping)机制。

早停机制原理

早停是深度学习中常用的正则化技术，其核心思想是在验证集指标不再提升时终止训练。这需要设置一个"耐心值"(patience)，即允许验证指标不提升的连续epoch数。当超过这个阈值时，训练自动停止。

nnUNet中的实现方案

在nnUNet中实现早停机制，可以通过继承基础训练器类并重写相关方法来实现。下面是一个典型实现示例：

from nnunetv2.training.nnUNetTrainer.nnUNetTrainer import nnUNetTrainer

class nnUNetTrainerEarlyStopping(nnUNetTrainer):
    def __init__(self, plans: dict, configuration: str, fold: int, dataset_json: dict,
                 device: str = 'cuda'):
        super().__init__(plans, configuration, fold, dataset_json, device)
        self.num_epochs = 400  # 设置最大epoch数
        self.patience = 30     # 设置耐心值
        self.best_val_metric = -float('inf')  # 初始化最佳验证指标
        self.epochs_no_improve = 0  # 无改善epoch计数器

    def on_epoch_end(self):
        super().on_epoch_end()  
        
        # 获取当前验证集Dice指标
        current_metric = self.all_val_metrics[-1]['foreground_mean']['Dice']
        
        # 更新最佳指标和计数器
        if current_metric > self.best_val_metric:
            self.best_val_metric = current_metric
            self.epochs_no_improve = 0
        else:
            self.epochs_no_improve += 1

        # 检查是否满足早停条件
        if self.epochs_no_improve >= self.patience:
            print(f"早停触发！验证指标连续{self.patience}个epoch未提升")
            self._save_final_checkpoint()  # 保存最终模型
            raise KeyboardInterrupt  # 优雅退出训练