PEFT项目中的适配器加载与参数尺寸不匹配问题解析

2025-05-12 11:03:04作者：裘晴惠Vivianne

在大型语言模型微调过程中，参数高效微调(PEFT)技术因其显著减少训练参数量的优势而广受欢迎。然而，当我们需要在基础模型上添加特殊token并同时使用预训练适配器时，会遇到一个典型的技术挑战——参数尺寸不匹配问题。

问题背景

在标准实践中，当用户需要为基础语言模型添加新的特殊token时，通常需要调整模型的嵌入层(embedding layer)和语言模型头部(lm_head)的尺寸。Transformers库提供了ignore_mismatched_sizes参数来处理这种情况，允许用户在加载预训练模型时忽略这些因尺寸调整而产生的参数不匹配。

然而，当这些调整过尺寸的基础模型需要加载预训练的PEFT适配器时，问题就出现了。特别是当这些调整过的层(如嵌入层)被包含在modules_to_save配置中时，适配器保存了这些层的完整参数，但新模型的相应层已经因尺寸调整而改变，导致无法直接加载适配器。

技术细节分析

PEFT适配器通常包含两类参数：

适配器特有的低秩参数(如LoRA中的A/B矩阵)
通过modules_to_save指定的完整模块参数

当基础模型的某些层(特别是嵌入层)尺寸发生变化时，第二类参数就会产生尺寸不匹配问题。例如，原始模型的嵌入层尺寸可能是[50272, 768]，而添加2个新token后变为[50274, 768]。如果适配器保存了原始尺寸的嵌入层参数，直接加载就会失败。

解决方案演进

PEFT项目的最新进展已经通过PR#1620解决了这一问题，引入了与Transformers库类似的ignore_mismatched_sizes参数。这一改进允许用户在加载适配器时：

跳过尺寸不匹配的参数
保留适配器中其他可加载的参数
对尺寸调整过的层使用随机初始化或用户自定义的初始化方式

实际应用建议

对于遇到此问题的开发者，可以采取以下步骤：

首先正常加载并调整基础模型尺寸
使用新的ignore_mismatched_sizes参数加载适配器
手动处理那些因尺寸调整而未能加载的参数层

# 示例代码
model = AutoModelForCausalLM.from_pretrained(base_model)
model.resize_token_embeddings(new_vocab_size)

peft_model = PeftModel.from_pretrained(
    model, 
    adapter_path,
    ignore_mismatched_sizes=True
)