如何在Sentence Transformers项目中合并并保存PEFT微调后的模型

2025-05-13 04:43:46作者：郜逊炳

在自然语言处理领域，Sentence Transformers是一个广泛使用的框架，用于训练和使用句子嵌入模型。随着大语言模型(LLM)的兴起，参数高效微调(PEFT)技术，特别是LoRA(Low-Rank Adaptation)，已成为微调大型模型的重要方法。本文将详细介绍如何在Sentence Transformers项目中正确合并并保存经过PEFT微调的模型。

PEFT与LoRA技术简介

PEFT(Parameter-Efficient Fine-Tuning)是一类参数高效微调技术，它允许我们在只更新少量参数的情况下微调大型预训练模型。LoRA是其中最具代表性的方法之一，它通过向模型添加低秩适配器来实现微调，而不是直接修改原始模型参数。

这种方法的主要优势在于：

显著减少训练所需的显存
大幅降低需要保存的检查点大小
保持原始模型的性能

在Sentence Transformers中使用LoRA

在Sentence Transformers中集成LoRA适配器相对简单。以下是一个典型的适配器添加示例：

from peft import LoraConfig, TaskType
from sentence_transformers import SentenceTransformer

peft_config = LoraConfig(
    task_type=TaskType.FEATURE_EXTRACTION,
    inference_mode=False,
    r=8,  # 低秩矩阵的秩
    lora_alpha=32,  # 缩放因子
    lora_dropout=0.1,  # Dropout率
)

model = SentenceTransformer("base-model-name")
model.add_adapter(peft_config)

模型合并的关键步骤

训练完成后，我们通常希望将LoRA适配器与基础模型合并，得到一个完整的模型。以下是正确的方法：

# 获取Transformer/PEFT底层模型并合并
model[0].auto_model = model[0].auto_model.merge_and_unload()

# 重要：设置此标志以确保正确保存
model[0].auto_model._hf_peft_config_loaded = False

# 保存合并后的模型
model.save_pretrained("merged_model")

处理特殊模型的情况

对于某些特定架构的模型(如Qwen2)，直接合并可能会遇到问题。这时可以采用以下工作流程：

首先保存适配器模型
然后重新加载为SentenceTransformer模型
最后执行合并操作

# 训练完成后保存适配器
model.save_pretrained("adapter_model")

# 重新加载适配器
merged_model = SentenceTransformer("adapter_model", trust_remote_code=True)

# 合并并保存最终模型
merged_model[0].auto_model = merged_model[0].auto_model.merge_and_unload()
merged_model[0].auto_model._hf_peft_config_loaded = False
merged_model.save_pretrained("final_model")