Sentence Transformers v4.0.1：跨编码器训练重构与性能提升

2025-06-02 07:41:12作者：裴麒琰

sentence-transformers

State-of-the-Art Embeddings, Retrieval, and Reranking

项目地址：https://gitcode.com/gh_mirrors/se/sentence-transformers

项目简介

Sentence Transformers是一个基于Transformer架构的开源库，专门用于生成高质量的句子、段落和图像嵌入。该项目由UKPLab团队维护，广泛应用于信息检索、语义搜索、问答系统等自然语言处理任务。最新发布的v4.0.1版本带来了跨编码器（Cross Encoder）训练流程的重大重构，显著提升了模型训练效率和性能。

跨编码器训练架构重构

v4.0.1版本最核心的改进是对跨编码器（又称重排序器）训练流程的全面重构。新的训练架构采用了模块化设计，主要由五个关键组件构成：

数据集组件：使用Hugging Face的Dataset和DatasetDict类替代传统的InputExample列表，支持更高效的数据处理和共享。数据集可以包含多个文本列，这些列将按顺序传递给相应的损失函数。
损失函数：引入了11种新的损失函数，包括BinaryCrossEntropyLoss、LambdaLoss、ListNetLoss等，支持单损失函数或多数据集场景下的损失函数字典配置。
训练参数：通过CrossEncoderTrainingArguments类（继承自transformers的TrainingArguments）提供对训练细节的精细控制。
评估器：可选组件，支持在评估数据集上使用损失函数或SentenceEvaluator进行评估。
训练器：全新的CrossEncoderTrainer类，基于transformers的Trainer实现，简化了训练流程。

关键技术改进

多GPU训练支持：新增对数据并行（DP）和分布式数据并行（DDP）的支持，大幅提升训练速度。
混合精度训练：引入bf16训练支持，在保持模型精度的同时减少内存占用。
训练过程可视化：改进的损失日志记录功能，配合内置的Weights and Biases、TensorBoard等回调支持，使训练过程更加透明。
梯度优化：支持梯度检查点和梯度累积技术，有效缓解大模型训练中的显存压力。
模型管理：增强的模型卡生成功能，自动记录训练配置和超参数，便于模型共享和复现。
训练恢复：支持从检查点恢复训练，提高长时间训练任务的可靠性。

实际应用效果

在实际应用中，经过微调的跨编码器模型表现出显著优势。例如，在GooAQ数据集上微调的模型，在仅30分钟到1小时的训练后，性能就大幅超越通用目的的预训练模型。这证明了针对特定领域数据进行微调的价值，即使数据本身属于通用领域。

其他改进

评估器优化：为InformationRetrievalEvaluator添加了进度条显示功能，提升用户体验。
训练效率：用RandomSampler替代SubsetRandomSampler作为默认批采样器，减少了内存使用并提高了训练速度。
模型兼容性：增强了对非对称模型的支持，修复了相关评估器和模型卡生成的问题。
CLIP模型改进：为CLIP模型添加了截断功能和序列长度设置支持。

开发者建议

对于新项目，建议直接使用新的Trainer-based训练方法。虽然旧的CrossEncoder.fit方法仍然可用（内部已转为使用CrossEncoderTrainer），但新方法提供了更丰富的功能和更好的性能。

总结

Sentence Transformers v4.0.1通过重构跨编码器训练流程，为开发者提供了更强大、更灵活的工具集。无论是多GPU训练支持、混合精度训练，还是改进的评估和可视化功能，都显著提升了模型开发和微调的效率。对于需要进行语义相关性任务的项目，这一版本无疑是一个值得升级的选择。

sentence-transformers

State-of-the-Art Embeddings, Retrieval, and Reranking

项目地址：https://gitcode.com/gh_mirrors/se/sentence-transformers

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库