Flash-Linear-Attention项目中RWKV7模型训练异常的排查与分析

2025-07-02 05:13:34作者：劳婵绚Shirley

问题现象

在使用Flash-Linear-Attention项目训练RWKV7模型时，研究人员发现了一个异常现象：当使用Transformers框架从零开始训练RWKV7模型时，损失曲线出现了不正常的波动和上升趋势。相比之下，使用相同配置在Flame框架下训练时，损失曲线表现正常。

研究人员进行了多组对比实验，主要配置如下：

模型配置中特别值得注意的是采用了chunk注意力模式、sqrelu激活函数，以及多种低秩分解维度设置。

研究人员首先观察到：

通过仔细比较两种框架的训练日志和实现细节，发现关键差异点：

梯度累积步数的处理：Transformers 4.48.2版本中存在一个bug，导致损失值没有正确除以梯度累积步数
批次大小的计算：当设置per_device_train_batch_size=4且gradient_accumulation_steps=4时，实际损失值被放大了16倍(4×4)

研究人员通过以下步骤验证了问题根源：

这一问题的排查过程为我们提供了几个重要的技术启示：

基于这一案例，我们建议开发者在训练RWKV类模型时：

本次RWKV7模型训练异常问题的排查，展示了深度学习实践中框架级问题对模型训练的影响。通过系统性的对比分析和问题定位，不仅解决了具体的技术问题，也为类似场景下的模型训练提供了有价值的参考经验。这提醒我们在追求模型创新的同时，也需要对训练基础设施保持足够的关注。

登录后查看全文