PEFT项目中LoRA与DORA结合训练时的梯度检查点问题解析

2025-05-12 04:21:02作者：段琳惟

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

问题背景

在使用PEFT库进行模型微调时，当尝试将LoRA（Low-Rank Adaptation）与DORA（Dynamic Orthogonal Regularization Adaptation）技术结合使用时，特别是在分布式训练环境（FSDP）下，会出现梯度检查点（Gradient Checkpointing）相关的错误。错误信息显示在反向传播过程中，重新计算得到的张量元数据（如数据类型）与正向传播时保存的不一致。

错误现象分析

典型的错误表现为在反向传播阶段，torch.utils.checkpoint会报告多个张量的元数据不匹配问题。具体表现为：

张量的数据类型在正向传播时保存为float32，但在重新计算时变成了bfloat16
张量的形状和所在设备保持一致，但数据类型发生了改变
错误涉及多个不同形状的张量，从小的512维向量到大的18944维向量

根本原因

这种元数据不匹配问题通常源于以下几个技术因素的交互：

混合精度训练：模型可能同时使用了float32和bfloat16两种精度
梯度检查点机制：为了节省内存，PyTorch的checkpoint机制会丢弃中间结果并在反向传播时重新计算
DORA特性：DORA技术会动态调整参数的正交性，可能影响张量的数据类型
分布式训练环境：FSDP（Fully Sharded Data Parallel）对模型参数的分布处理方式

解决方案

目前可行的解决方案包括：

设置use_reentrant=True：这是最直接的解决方法，通过启用重新进入式检查点来避免元数据验证
调整检查点范围：避免对整个模型使用检查点，而是选择性地对特定模块应用
统一数据类型：确保模型在正向和反向传播时使用相同的数据类型
更新库版本：确保使用的PEFT、Transformers和PyTorch版本兼容

最佳实践建议

对于希望在PEFT项目中使用LoRA+DORA组合的研究人员和开发者，建议：

从小规模实验开始，验证技术组合的可行性
仔细监控训练过程中的内存使用和计算精度
考虑逐步引入复杂技术（先单独使用LoRA，再尝试加入DORA）
保持对相关库更新的关注，特别是与梯度检查点相关的改进

技术展望

随着PEFT技术的不断发展，这类底层框架交互问题有望得到更系统的解决。未来可能会出现：

更智能的自动混合精度管理
对DORA等新技术更好的原生支持
更健壮的梯度检查点实现
更完善的分布式训练集成方案

理解这些底层技术交互对于成功应用参数高效微调技术至关重要，也能帮助开发者更有效地解决实际训练中遇到的问题。

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。