Darts库中TFTModel训练异常问题分析与解决方案

2025-05-27 05:39:44作者：宣海椒Queenly

问题背景

在使用Darts时间序列预测库中的TFTModel进行模型训练时，开发者可能会遇到一个典型问题：训练过程中所有epoch都立即完成，但实际上没有进行任何有效的批量计算。通过调试发现，在模型forward()方法的执行过程中，调用decoder_vsn()时会抛出StopIteration异常，导致训练过程异常终止。

问题现象分析

当使用自定义的MixedCovariatesSequentialDataset并通过fit_from_dataset()方法进行训练时，会出现以下现象：

训练日志显示所有epoch都快速完成，但实际没有进行有效的批量计算
调试发现decoder_vsn()调用时抛出StopIteration异常
如果配置了EarlyStopping回调，还会出现无法评估"val_loss"指标的错误

根本原因

经过深入分析，这个问题的主要原因是TFTModel的特殊性要求：它必须与future_covariates信息一起使用。也就是说，在自定义数据集的__getitem__方法中，必须返回historic_future_covariates和future_covariates两个关键数据项。

解决方案

Darts库提供了add_relative_index参数来解决这个问题。当开发者没有未来协变量信息时，可以通过设置这个参数为True，让模型自动生成一些虚拟/占位符的未来协变量数据。

具体实现方式如下：

model = TFTModel(..., add_relative_index=True)

对于使用Darts 0.30.0及以上版本的用户，还需要注意训练数据集现在包含了样本权重。因此，在自定义数据集的__getitem__方法中，需要额外返回一个表示样本权重的值（可以为None）：

return (
    past_target,
    past_covariate,
    historic_future_covariate,
    future_covariate,
    static_covariate,
    None,  # 样本权重
    future_target,
)