Liger-Kernel项目在Lightning训练中遇到的模型加载问题分析

2025-06-10 17:52:34作者：胡唯隽

问题背景

在使用Liger-Kernel项目进行Lightning训练时，开发人员尝试复现基于Deepspeed Zero3的优化训练过程时遇到了两个关键问题。这些问题涉及到模型初始化、权重加载以及性能表现等方面，值得深入分析。

问题现象与解决方案

初始错误分析

第一个错误表现为AttributeError: module 'deepspeed.utils' has no attribute 'logging'，这是由于缺少必要的deepspeed导入导致的。通过简单地在训练脚本中添加import deepspeed语句即可解决。

权重加载不匹配问题

第二个错误更为关键，系统报告了状态字典加载时的形状不匹配问题：

RuntimeError: Error(s) in loading state_dict for Qwen2ForCausalLM:
       size mismatch for model.embed_tokens.weight: copying a param with shape torch.Size([151936, 896]) from checkpoint, the shape in current model is torch.Size([0]).

这个问题源于Deepspeed的特殊模型初始化方式。当使用Deepspeed时，模型需要在特定上下文中初始化，所有新创建的张量初始形状为0，然后由Deepspeed内部实现分片和广播。这个问题可能是由于Liger的差异或Deepspeed/HuggingFace新版本发布导致的兼容性问题。

根本原因与修复

经过项目维护者分析，这个问题是由于ignore_mismatch_shapes=True参数在某些情况下被意外丢弃导致的。该问题已在最新提交中修复，用户可以通过安装liger-kernel-lightly版本来解决这个问题。

性能对比发现

在问题解决后，开发人员进行了进一步的性能测试，发现了一个有趣的现象：

使用AutoLigerKernelForCausalLM加载模型完成训练需要2小时59分钟，而改为使用标准的AutoModelForCausalLM后，训练时间缩短至2小时42分钟。这一结果与预期相反，因为理论上Liger-Kernel应该提供性能优化。

技术启示

这一案例揭示了几个重要的技术要点：

框架兼容性：深度学习框架间的交互可能产生微妙的兼容性问题，特别是在使用多层级抽象（如Lightning+Deepspeed+Transformers）时。
初始化流程：分布式训练框架如Deepspeed对模型初始化有特殊要求，开发者需要理解这些底层机制。
性能基准：优化组件的实际性能表现需要通过严谨的基准测试来验证，理论优化不一定总能转化为实际加速。