PEFT项目中Prefix-Tuning模型加载问题的分析与解决方案

2025-05-12 16:41:27作者：蔡丛锟

背景介绍

在自然语言处理领域，参数高效微调（PEFT）技术因其能够显著减少训练参数而受到广泛关注。其中，Prefix-Tuning作为一种流行的PEFT方法，通过在模型输入前添加可学习的虚拟令牌来实现高效微调。然而，近期在使用Hugging Face的PEFT库时，用户报告了一个关键问题：当尝试从检查点加载经过Prefix-Tuning训练的模型时，会出现权重形状不匹配的错误。

问题现象

当用户使用Trainer进行Prefix-Tuning训练并设置load_best_model_at_end=True时，系统会抛出如下错误：

RuntimeError: Error(s) in loading state_dict for Embedding:
    size mismatch for weight: copying a param with shape torch.Size([10, 172032]) from checkpoint, the shape in current model is torch.Size([10, 3072]).

这个错误表明，检查点中保存的权重形状[10, 172032]与目标模型期望的形状[10, 3072]不匹配。这种差异源于PEFT库对Prefix-Tuning模型的特殊处理方式。

问题根源分析

深入研究发现，这个问题与PEFT库对Prompt Learning类模型的优化设计有关：

模型保存机制：对于Prefix-Tuning这类模型，PEFT采用了优化保存策略，不是完整保存prompt_encoder的全部参数，而是只保存推理所需的关键权重。
架构差异：在训练时，prompt_encoder包含完整的转换层；而在推理时，PEFT假设prompt_encoder仅包含一个简单的Embedding层。这种架构差异导致了权重形状不匹配。
设计意图：这种优化设计旨在减少推理时的计算开销，但对于训练过程中的模型加载场景却造成了兼容性问题。

解决方案

官方推荐方案

PEFT维护者建议采用以下工作流程：

设置load_best_model_at_end=False禁用自动加载最佳模型
训练完成后手动加载最佳模型：

from peft import PeftModel
base_model = AutoModelForSequenceClassification.from_pretrained(...)
model = PeftModel.from_pretrained(base_model, checkpoint_path)

如需使用EarlyStoppingCallback，需显式设置metric_for_best_model参数，如：

TrainingArguments(..., metric_for_best_model="eval_loss")

临时解决方案

对于需要完整保存prompt_encoder参数的场景，可以修改PEFT库的以下函数：

修改get_peft_model_state_dict()函数：

if config.peft_type == PeftType.MULTITASK_PROMPT_TUNING:
    # 原有代码
else:
    to_return.update(model.prompt_encoder[adapter_name].state_dict(prefix="prompt_embeddings."))

修改set_peft_model_state_dict()函数：

prefix = "prompt_embeddings."
prompt_embeddings = {k.replace(prefix, ""): v for k, v in peft_model_state_dict.items() if k[:len(prefix)] == prefix}
model.prompt_encoder[adapter_name].load_state_dict(prompt_embeddings, strict=True)

注意事项：