Qwen3项目中训练稳定性问题分析与解决方案

2025-05-11 21:29:25作者：宗隆裙

训练过程中的损失函数波动现象

在Qwen3项目开发过程中，研究人员发现当使用Qwen2.5-0.5B-Instruct模型进行视觉语言模型的监督微调(SFT)时，出现了一个值得关注的现象：即使在固定随机种子、相同训练环境和配置参数的情况下，每次运行相同迭代时损失函数值会出现不一致的情况。这种现象在传统的小型模型(如BART和T5)训练中并不常见，但在Qwen系列模型中表现得尤为明显。

问题特征分析

通过详细实验观察，该问题表现出以下特征：

学习率依赖性：当使用较小学习率(1e-5)时，损失值仅在部分迭代中保持一致，其他迭代会出现0.01-0.1范围内的偏差；而使用较大学习率(3e-4)时，除前几次迭代外，后续迭代的损失值差异可达0.1以上。
精度影响：使用bfloat16精度训练时，这种不稳定性表现得更为明显，这与低精度浮点数运算的特性有关。
注意力机制相关性：问题的表现与模型使用的注意力机制类型密切相关。

根本原因探究

经过深入分析，发现导致训练不稳定的主要原因包括：

非确定性算法：PyTorch框架中存在多种非确定性算法源，这些算法不受常规随机种子控制。特别是在使用低精度计算(bfloat16)时，浮点数精度问题会放大这种非确定性带来的影响。
注意力机制实现差异：Qwen系列模型默认使用sdpa(缩放点积注意力)机制，而传统小型模型多使用eager机制。不同的注意力实现方式对计算过程的确定性有显著影响。

解决方案与实践建议

针对训练不稳定性问题，提出以下解决方案：

注意力机制切换：将Qwen模型的注意力机制切换回传统的eager模式，可以确保训练过程的完全确定性。这种方法简单有效，特别适合对结果可复现性要求高的研究场景。
确定性训练配置：当必须使用sdpa或flash_attn_2等优化后的注意力机制时，应启用transformers.enable_full_determinism()函数来强制确定性计算。需要注意的是，这可能会带来一定的性能开销。
精度选择策略：在允许的情况下，考虑使用更高精度的浮点数格式(如float32)进行训练，可以减少低精度计算带来的数值不稳定性。