PEFT与Sentence Transformers结合时的张量维度不匹配问题分析

2025-05-12 10:31:13作者：虞亚竹Luna

问题背景

在使用PEFT(Parameter-Efficient Fine-Tuning)对基于BERT的Sentence Transformer模型进行提示调优(Prompt Tuning)时，开发人员遇到了一个关键的技术问题：在前向传播过程中，词嵌入张量与注意力掩码在池化操作时出现维度不匹配的情况。

具体表现为当使用PromptTuningConfig配置时，模型在前向传播时会抛出RuntimeError，错误信息显示张量扩展尺寸不匹配。有趣的是，当使用LoRA或Prefix Tuning等其他PEFT方法时，模型能够正常工作。

通过深入分析，发现问题出在模型架构的两个部分之间的交互上：

Transformer部分：经过PEFT的提示调优改造，这部分会插入虚拟标记(prompt embeddings)，形状为[1, num_virtual_tokens, hidden_size]，同时会相应扩展注意力掩码的维度。
池化(Pooler)部分：属于Sentence Transformer的组件，这部分没有经过PEFT改造，不知道提示调优的存在，因此仍使用原始的注意力掩码维度。

以示例中的参数为例：

经过Transformer部分处理后：

目前可行的解决方案方向包括：

这个问题揭示了深度学习模型组件化开发中的一个常见挑战：当对模型的某一部分进行修改时，可能会破坏与其他组件的兼容性。特别是在参数高效微调场景下，原始模型和改造后的模型在输入输出维度上可能存在差异，需要特别注意。

对于需要在Sentence Transformer上使用PEFT提示调优的开发人员，目前建议：

这个问题体现了深度学习框架集成中的复杂性，特别是在参数高效微调这种相对前沿的技术领域。开发者在结合使用不同技术栈时需要特别注意组件间的兼容性，特别是在张量维度变化方面。随着PEFT和Sentence Transformer等技术的不断发展，这类集成问题有望得到更系统化的解决方案。

登录后查看全文