Darts项目中TFT模型使用MapeLoss时预测NaN值的问题分析

2025-05-27 07:58:15作者：卓艾滢Kingsley

问题现象

在使用Darts库中的TFTModel时，当选择MapeLoss作为损失函数时，模型训练过程中会出现验证损失和训练损失显示为0的情况。更严重的是，当使用训练好的模型进行预测时，输出结果会全部变为NaN（非数字）值。

经过深入分析，这个问题主要源于两个关键因素：

数据中的零值：当时间序列数据中包含零值时，MapeLoss（平均绝对百分比误差）的计算会出现数学上的未定义情况。因为MAPE的计算公式涉及除以实际值，当实际值为零时，计算结果会趋向无穷大。
损失函数处理机制：Darts库中的MapeLoss实现虽然包含了_divide_no_nan保护机制（当分母为零时返回零），但这种处理方式在深度学习训练过程中会带来副作用。当模型预测值变为NaN时，损失函数会返回零，这会影响反向传播过程，最终导致模型权重也变为NaN。

在PyTorch框架下，损失函数的计算直接影响模型的梯度更新。当使用MapeLoss时：

针对这个问题，有以下几种可行的解决方案：

数据预处理：
- 避免使用MinMaxScaler将数据缩放到[0,1]区间，因为这样可能产生零值
- 考虑使用StandardScaler或其他不会产生零值的缩放方法
- 对数据中的零值进行适当处理（如替换为微小正值）
损失函数选择：
- 当数据可能包含零值时，避免使用MapeLoss
- 考虑使用MSELoss（均方误差）或MAELoss（平均绝对误差）等不受零值影响的损失函数
- 如果需要百分比误差度量，可考虑使用sMAPE（对称平均绝对百分比误差）
模型训练监控：
- 在训练过程中监控损失值的变化
- 设置EarlyStopping回调来检测异常训练情况
- 定期检查模型权重是否出现NaN值

这个问题揭示了深度学习时间序列预测中一个常见但容易被忽视的陷阱：损失函数与数据特性的匹配问题。通过这个案例，我们可以认识到，在构建预测模型时，不仅需要考虑模型架构的选择，还需要深入理解数据特性与损失函数之间的相互作用关系。合理的数据预处理和损失函数选择往往是模型成功的关键因素之一。

登录后查看全文