Sentence Transformers中EarlyStoppingCallback的正确使用方法

2025-05-13 06:18:52作者：钟日瑜

sentence-transformers

Multilingual Sentence & Image Embeddings with BERT

项目地址：https://gitcode.com/gh_mirrors/se/sentence-transformers

在机器学习模型训练过程中，早期停止(Early Stopping)是一种常用的正则化技术，可以有效防止模型过拟合。本文将详细介绍如何在Sentence Transformers框架中正确使用EarlyStoppingCallback回调函数。

EarlyStoppingCallback的工作原理

EarlyStoppingCallback通过监控验证集上的评估指标，在指标不再改善时提前终止训练过程。它主要依赖两个关键参数：

early_stopping_patience：允许指标不改善的评估次数
early_stopping_threshold：指标改善的最小阈值

在Sentence Transformers中的实现

要使EarlyStoppingCallback正常工作，需要正确配置训练参数和回调函数：

训练参数配置：

args = SentenceTransformerTrainingArguments(
    output_dir="output",
    num_train_epochs=10,
    per_device_train_batch_size=16,
    evaluation_strategy="steps",
    eval_steps=100,
    load_best_model_at_end=True  # 必须设置为True
)

回调函数设置：

from transformers.trainer_callback import EarlyStoppingCallback

trainer = SentenceTransformerTrainer(
    model=model,
    args=args,
    train_dataset=train_data,
    eval_dataset=eval_data,
    callbacks=[
        EarlyStoppingCallback(
            early_stopping_patience=2,
            early_stopping_threshold=0.01
        )
    ]
)

常见问题解决方案

回调函数不生效：

确保设置了evaluation_strategy和eval_steps
验证load_best_model_at_end参数为True
检查评估指标是否合理变化

参数选择建议：

对于小型数据集，patience可以设置为1-2
大型数据集建议patience设为3-5
threshold根据具体任务调整，一般0.01-0.001

最佳实践

始终在训练前验证评估指标的计算是否正确
使用WandB或TensorBoard监控训练过程
对于关键任务，建议先进行小规模实验验证EarlyStopping效果

通过正确配置EarlyStoppingCallback，可以显著提高Sentence Transformers模型的训练效率，避免不必要的计算资源浪费，同时获得更好的模型性能。

sentence-transformers

Multilingual Sentence & Image Embeddings with BERT

项目地址：https://gitcode.com/gh_mirrors/se/sentence-transformers

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理