PEFT项目中Prefix Tuning的前向传播参数处理问题分析

2025-05-12 04:39:11作者：廉彬冶Miranda

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

在PEFT（Parameter-Efficient Fine-Tuning）项目中，当使用Prefix Tuning方法对因果语言模型进行微调时，前向传播函数存在一个参数处理上的潜在问题。这个问题主要出现在PeftModelForCausalLM类的forward方法中，当模型同时接收外部传入的past_key_values参数和内部生成的prefix提示时，会导致参数冲突。

问题背景

Prefix Tuning是一种参数高效的微调方法，它通过在模型输入前添加可学习的虚拟token（virtual tokens）来调整模型行为，而不需要修改模型本身的参数。在实现上，这些虚拟token会被转换为key-value对，作为past_key_values传递给模型。

在PEFT的当前实现中，PeftModelForCausalLM.forward()方法在处理Prefix Tuning时，会直接调用self.get_prompt()获取prefix提示，然后将其作为past_key_values传递给基础模型。然而，这个方法没有考虑到外部可能已经传入了past_key_values参数的情况。

问题表现

当使用某些特定的模型架构（如LLaVA多模态模型）时，这些模型的前向传播会主动传入past_key_values参数。此时与PEFT内部生成的prefix提示冲突，导致Python抛出TypeError异常，提示"object got multiple values for keyword argument 'past_key_values'"。

技术分析

问题的核心在于参数传递的优先级处理不当。在深度学习中，past_key_values通常用于实现高效的序列生成（如文本生成时的KV缓存），而Prefix Tuning也需要使用这个参数来传递学习到的prefix提示。

当前的实现存在两个问题：

没有显式声明past_key_values为方法参数，而是通过**kwargs接收
在调用基础模型时，直接将内部生成的prefix提示作为past_key_values传递，没有检查kwargs中是否已存在该参数

解决方案

最合理的解决方式是：

在方法签名中显式声明past_key_values参数，默认值为None
在调用基础模型前，检查并移除kwargs中可能存在的past_key_values参数
确保内部生成的prefix提示具有最高优先级

这种处理方式既保持了与现有代码的兼容性，又解决了参数冲突问题，同时遵循了Python的参数传递规则。

影响范围

这个问题主要影响使用Prefix Tuning方法且基础模型会主动传入past_key_values参数的场景。对于大多数纯文本生成任务，由于past_key_values通常为None，所以不会触发此问题。但在多模态模型或某些特殊架构中，这个问题会导致模型无法正常训练或推理。

最佳实践

在使用PEFT进行模型微调时，特别是与复杂模型架构结合使用时，建议：

仔细检查模型的前向传播参数传递逻辑
对于可能产生参数冲突的情况，优先考虑使用显式参数声明
在wrapper类中妥善处理基础模型和适配器之间的参数传递

通过这种方式，可以确保参数高效微调方法能够与各种模型架构无缝集成，发挥最大的效果。

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。