Qwen2.5-VL模型训练中NaN问题的分析与解决

2025-05-23 12:03:13作者：胡唯隽

问题现象

在使用Qwen2.5-VL模型进行训练时，用户遇到了一个值得注意的问题：在训练3B参数规模的模型时，模型在通过vision tower模块的patch_embed阶段会产生NaN（非数值）值。这一现象在7B参数规模的模型训练中并未出现。

用户首先尝试了关闭autocast功能，并改用fp32精度进行训练，但NaN问题仍然存在。这表明问题可能不是简单的数值精度不足导致的。

经过深入排查，用户最终发现问题根源在于模型检查点（checkpoint）文件下载不完整或损坏。当重新下载完整的检查点文件后，NaN问题得到了解决。

在深度学习模型训练中，NaN值的出现通常与以下几个因素有关：

针对类似问题，建议采取以下排查步骤：

本案例提醒我们，在深度学习模型训练过程中，即使是看似复杂的问题，其根本原因可能相对简单（如文件下载问题）。建立系统化的排查流程非常重要，应从最简单的可能性开始验证，逐步深入。

同时，这也体现了模型检查点完整性的重要性。在实际应用中，建议始终对下载的模型文件进行完整性验证，以避免类似问题的发生。

登录后查看全文