Super-Gradients 训练中的 EarlyStop 回调函数使用指南

2025-06-11 09:44:28作者：裴锟轩Denise

在使用 Super-Gradients 框架进行模型训练时，EarlyStop 是一个非常有用的回调函数，它可以帮助我们在验证指标不再改善时提前终止训练，从而节省计算资源和时间。本文将详细介绍如何正确配置和使用 EarlyStop 回调函数。

问题背景

在 Super-Gradients 框架中，许多开发者会遇到一个常见错误：当尝试使用 EarlyStop 回调函数时，系统会抛出 AttributeError: 'EarlyStop' object has no attribute 'append' 的错误。这通常是由于回调函数配置不当导致的。

正确配置方法

1. 导入必要的模块

首先需要导入 EarlyStop 类和 Phase 枚举：

from super_gradients.training.utils.early_stopping import EarlyStop
from super_gradients.training.utils.callbacks import Phase

2. 创建 EarlyStop 实例

创建一个 EarlyStop 回调实例，配置相关参数：

early_stop_loss = EarlyStop(
    phase=Phase.VALIDATION_EPOCH_END,  # 在验证阶段结束时检查
    monitor="valid_loss",             # 监控验证损失
    mode="min",                       # 希望损失值越小越好
    min_delta=0.5,                    # 最小改善阈值
    patience=3,                       # 容忍不改善的epoch数
    verbose=True,                     # 打印日志信息
    strict=True,                      # 严格模式
)

3. 将回调函数添加到训练参数

关键点：phase_callbacks 参数期望接收一个回调函数的列表，而不是单个回调对象。这是导致上述错误的根本原因。

正确做法是将 EarlyStop 实例放入列表中：

train_params = {
    # 其他训练参数...
    "phase_callbacks": [early_stop_loss],  # 注意这里是列表形式
    # 其他训练参数...
}

参数详解

phase：指定回调函数触发的时机，通常设置为 VALIDATION_EPOCH_END，表示在每个验证周期结束时检查。
monitor：指定要监控的指标名称，如验证损失("valid_loss")或准确率等。
mode：指定监控指标的最优方向：
- "min"：指标越小越好（如损失值）
- "max"：指标越大越好（如准确率）
min_delta：定义"改善"的最小变化量，只有超过这个阈值的变化才被认为是真正的改善。
patience：在触发停止前允许指标不改善的epoch数。
verbose：是否打印详细日志信息。
strict：是否严格检查监控指标是否存在。

使用建议

对于不同的任务，可能需要调整 min_delta 和 patience 参数：
- 对于波动较大的训练过程，可以增大 min_delta 或 patience
- 对于稳定的训练过程，可以使用较小的值以便更早停止
可以同时监控多个指标，创建多个 EarlyStop 实例并都添加到 phase_callbacks 列表中。
EarlyStop 可以与其他回调函数（如模型检查点、学习率调度器等）一起使用，只需将它们都添加到同一个列表中。