Liger-Kernel项目中FSDP与LoRA联合训练时的模块保存问题分析

2025-06-10 05:26:06作者：咎竹峻Karen

问题背景

在深度学习模型训练过程中，完全分片数据并行(FSDP)和低秩适应(LoRA)是两种常用的技术手段。FSDP通过将模型参数、梯度和优化器状态分片到多个GPU上来实现高效的大模型训练，而LoRA则通过在预训练模型上添加低秩适配器来大幅减少微调时的参数量。这两种技术结合使用时，特别是在Liger-Kernel项目中，可能会遇到一些意料之外的问题。

问题现象

当使用FSDP和LoRA联合训练，并设置modules_to_save参数来保存特定模块(如norm层)时，系统会抛出运行时错误。错误信息表明在反向传播过程中，视图(View)的基础张量或其视图被就地修改，这在PyTorch中是不允许的操作。具体错误表现为：

RuntimeError: Output 0 of ViewBackward0 is a view and its base or another view of its base has been modified inplace. This view is the output of a function that returns multiple views. Such functions do not allow the output views to be modified inplace. You should replace the inplace operation by an out-of-place one.

技术分析

1. 问题根源

这个问题主要出现在Liger-Kernel的RMSNorm实现中。当启用use_liger_kernel标志时，系统会使用Liger-Kernel优化的RMSNorm实现，该实现可能包含一些视图操作和潜在的就地修改操作。在FSDP和LoRA的特定配置下，这些操作会触发PyTorch的视图保护机制。

2. 触发条件

问题仅在以下条件同时满足时出现：

使用FSDP进行分布式训练
启用LoRA并设置modules_to_save参数
启用Liger-Kernel优化(use_liger_kernel=True)
使用混合精度训练(bf16)
启用梯度检查点

3. 技术细节

在FSDP框架下，当指定modules_to_save参数时，这些模块会被完整保存而不进行分片。与此同时，Liger-Kernel的RMSNorm实现可能使用了特定的内存优化策略，包括视图操作和潜在的就地修改。当这些技术组合使用时，可能会违反PyTorch对视图操作的限制。

解决方案

1. 临时解决方案

目前最简单的解决方案是移除modules_to_save参数，或者不使用Liger-Kernel优化。但这可能会牺牲部分性能或功能。

2. 长期解决方案

从技术实现角度，可以考虑以下改进方向：

修改RMSNorm实现：检查Liger-Kernel中的RMSNorm实现，确保不违反PyTorch的视图操作规则，避免任何潜在的就地修改操作。
FSDP与LoRA集成优化：改进FSDP对LoRA适配器的处理逻辑，特别是对modules_to_save指定模块的处理方式。
梯度检查点兼容性：检查梯度检查点与Liger-Kernel优化的兼容性，可能需要调整检查点实现以避免冲突。

最佳实践建议

对于需要在生产环境中使用FSDP+LoRA+Liger-Kernel组合的用户，建议：

在启用所有优化前，先进行小规模测试验证兼容性
逐步添加优化技术，观察系统行为变化
关注各组件版本更新，特别是涉及底层优化的部分
考虑使用更稳定的替代方案，如不使用Liger-Kernel优化或调整modules_to_save设置

总结

这个问题揭示了深度学习训练中高级优化技术组合使用时可能遇到的底层兼容性问题。理解各组件的工作原理和交互方式对于解决此类问题至关重要。随着Liger-Kernel项目的持续发展，预期这类问题将得到更好的解决，为用户提供更稳定高效的训练体验。

Liger-Kernel

Efficient Triton Kernels for LLM Training

项目地址：https://gitcode.com/gh_mirrors/li/Liger-Kernel

登录后查看全文