PEFT项目中LoRA配置的模块排除功能解析

2025-05-12 01:29:34作者：董斯意

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

在PEFT（Parameter-Efficient Fine-Tuning）项目中，LoRA（Low-Rank Adaptation）是一种流行的微调技术，它通过在预训练模型的特定模块旁添加低秩矩阵来实现高效微调。近期社区提出了一个增强需求：在LoRA配置中增加模块排除功能，使开发者能够更精细地控制哪些模块参与LoRA适配。

技术背景

LoRA技术通过在Transformer架构的关键位置（如注意力机制的query/key/value投影层和前馈网络的中间层）插入可训练的低秩矩阵，大幅减少了微调所需的参数量。在标准实现中，开发者通过target_modules参数指定需要适配的模块名称模式（如"proj_out"、"proj_mlp"等），这些模式会匹配模型中的所有对应模块。

需求场景

在实际应用中，研究人员发现：

适配某些特定模块（如proj_out和proj_mlp）能显著提升模型性能
但排除最后一层的这些模块往往能使模型表现更加稳定和鲁棒
当前实现缺乏直接排除特定模块的机制，导致开发者需要手动构建复杂的正则表达式

技术实现方案

PEFT项目通过两种方式解决了这个问题：

正则表达式方案：利用Python正则表达式的强大功能，开发者可以在target_modules中直接编写排除特定层的模式。例如，要匹配除第11层外的所有fc1模块，可以使用模式".*\.(?!11)\d+\.fc1$"。
显式排除方案：通过#2102合并的代码变更，新增了exclude_modules参数，允许开发者直接指定需要排除的模块模式列表。这个实现会先匹配target_modules，然后从结果中剔除匹配exclude_modules的模块。

最佳实践建议

对于不同场景，推荐以下使用方式：

简单排除：当只需要排除少量明确指定的模块时，使用exclude_modules参数最为直观
复杂模式匹配：当排除规则涉及多层复杂逻辑时，直接编写正则表达式可能更高效
性能考虑：正则表达式方案通常比两步匹配（先target后exclude）有更好的运行时性能

技术细节

在底层实现上，模块匹配过程经历了以下步骤：

遍历模型的所有命名模块
对每个模块名称，首先检查是否匹配target_modules中的任一模式
如果配置了exclude_modules，进一步检查是否匹配其中的排除模式
通过所有检查的模块才会被添加LoRA适配器

这种设计保持了向后兼容性，同时提供了更精细的控制能力，使研究人员能够进行更精确的消融实验和性能调优。

总结

PEFT项目通过引入模块排除功能，进一步增强了LoRA技术的灵活性和实用性。这一改进特别有利于需要精细控制适配模块的研究场景，如：

研究不同层适配对模型性能的影响
避免适配可能引起不稳定的特定模块
实现更精细的参数高效微调策略

开发者现在可以根据具体需求，选择最适合的模块选择方式，从而获得更好的模型微调效果。

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。