FlagEmbedding项目训练Reranker模型时梯度检查点与DDP的冲突问题分析

2025-05-25 13:20:46作者：齐冠琰

Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

问题背景

在使用FlagEmbedding项目进行Reranker模型训练时，开发者遇到了一个典型的分布式训练错误。当同时启用梯度检查点(Gradient Checkpointing)和分布式数据并行(DDP)训练时，系统报错显示"Expected to mark a variable ready only once"，提示模型参数被多次标记为就绪状态。

错误现象

具体错误信息表明，模型第39层的self_attn.o_proj.lora_B.default.weight参数被多次标记为准备状态。系统提示这可能由两种情况导致：

在forward函数外使用了模块参数
在多个可重入的backward过程中重复使用了参数

技术分析

这个错误本质上是PyTorch分布式训练机制与梯度检查点技术的兼容性问题。当同时启用以下配置时容易出现：

DDP分布式训练(nproc_per_node=4)
梯度检查点(--gradient_checkpointing)
LoRA微调(--use_lora True)

梯度检查点技术通过在前向传播中重新计算中间结果而非保存它们来节省显存，这会导致某些参数在反向传播时被多次访问。而DDP的默认行为要求每个参数在每次迭代中只应被标记一次"ready"状态。

解决方案

经过验证，最简单的解决方法是移除--gradient_checkpointing参数。其他可能的解决方案包括：

单独使用梯度检查点：在单卡训练时保留该参数以节省显存
调整LoRA配置：降低lora_rank或lora_alpha值减少参数规模
使用静态图：尝试_set_static_graph()作为临时解决方案

最佳实践建议

对于FlagEmbedding项目的Reranker训练，推荐以下配置策略：

小规模模型：使用单卡+梯度检查点
大规模分布式训练：使用多卡DDP但禁用梯度检查点
显存优化：可尝试减小batch_size或增加gradient_accumulation_steps

总结

在深度学习模型训练中，各种优化技术之间可能存在隐性冲突。FlagEmbedding项目中的这个案例提醒我们，在组合使用高级训练技巧时需要充分理解其底层机制。特别是在分布式训练环境下，参数同步机制与显存优化技术需要谨慎搭配使用。

Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Oohos_react_native

React Native鸿蒙化仓库