Big Vision项目中Paligemma模型NaN梯度问题的分析与解决

2025-06-28 23:32:41作者：齐冠琰

问题背景

在Big Vision项目的Paligemma模型训练过程中，开发者在TPU v3-8环境下遇到了一个NaN梯度问题。具体表现为：当在embed_image_and_text()函数的末尾添加特定的掩码操作后，模型在第一个训练步骤就出现了梯度NaN的情况。

开发者尝试在图像和文本嵌入连接后添加一个全1的掩码矩阵：

mask_ar = jnp.full(text.shape, 1)
mask_ar = jnp.concatenate([jnp.full((zimg.shape[0], zimg.shape[1]), 1), mask_ar], axis=1)

添加这些代码后，模型训练立即出现NaN梯度。临时解决方案是将注意力机制中的big_neg值从极小的负数调整为-10，但这并非理想的长期解决方案。

经过深入调查，发现问题根源在于模型初始化阶段。具体来说，当从SigLIP到Gemma的投影器(projector)被初始化为全零权重时，会导致后续计算中出现数值不稳定问题。

在Big Vision项目的Vit.py文件中，存在一个关键参数控制着投影器的初始化方式。默认情况下，该参数设置为True，意味着使用预训练权重进行初始化。而当开发者将其设置为False时，投影器会被初始化为全零权重，这正是导致NaN梯度问题的根本原因。

解决此问题的方法很简单：确保投影器不被初始化为全零权重。具体来说：

这个问题揭示了深度学习模型初始化的重要性：

通过理解并解决这个NaN梯度问题，开发者可以更深入地掌握Big Vision项目中Paligemma模型的训练特性和稳定性要求，为后续的模型开发和优化打下坚实基础。

登录后查看全文