AutoGluon时间序列预测模块对缺失值处理的优化方案

2025-05-26 00:16:12作者：俞予舒Fleming

背景介绍

在时间序列预测任务中，数据缺失是一个常见且棘手的问题。AutoGluon作为一个强大的自动化机器学习工具，其时间序列预测模块(TimeSeriesPredictor)当前采用前向/后向填充(forward/backward-filling)的方式处理缺失值，然后将填充后的数据交给模型训练。这种方法虽然简单直接，但在缺失值比例较高的情况下会导致预测性能下降，因为连续的填充操作会引入大量重复值，扭曲了原始数据的统计特性。

现有问题分析

当前AutoGluon时间序列预测模块处理缺失值的方式存在几个关键问题：

填充操作会改变数据的原始分布特征，特别是当缺失值比例较高时，填充产生的重复值会显著影响模型学习效果
所有模型被迫在填充后的数据上训练，无法根据自身特性选择最优的缺失值处理策略
评估指标计算时没有专门考虑缺失值的影响，可能导致性能评估不准确

技术优化方案

针对上述问题，AutoGluon团队提出了一个全面的优化方案，核心思想是将缺失值作为一等公民(first-class citizen)处理，而不是简单地填充它们。具体改进包括以下几个关键方面：

1. 评估指标对缺失值的支持

首先优化了评估指标的计算逻辑，确保它们能够正确处理目标变量中的缺失值。这是基础性工作，因为只有评估指标能正确处理缺失值，才能准确衡量模型在真实场景下的性能。

2. 数据预处理逻辑重构

重构了TimeSeriesPredictor._check_and_prepare_data_frame方法中的数据预处理流程。新的处理逻辑不再自动填充缺失值，而是保留原始数据中的NaN值，让下游模型自行决定如何处理。

3. 模型层面的适配

为确保整个系统协调工作，对支持的各类预测模型进行了全面适配：

GluonTS系列模型：包括DeepAR、TFT、PatchTST和DLinear等深度学习模型，这些模型本身具备处理缺失值的能力，只需确保接口正确传递NaN值。

统计预测模型：如AutoETS、AutoARIMA、Theta等传统时间序列模型，需要特别处理以确保它们能正确处理缺失值。这部分工作仍在进行中。

基线模型：包括Naive、SeasonalNaive、Average等简单模型，已全部适配完成。

基于机器学习的预测模型：如DirectTabular和RecursiveTabular，已完成适配工作。

技术实现细节

在具体实现上，主要解决了几个关键技术挑战：

数据流一致性：确保从数据加载到模型训练、预测的整个流程中，缺失值信息能够正确传递，不会在某个环节被意外填充或丢弃。
模型兼容性：不同模型对缺失值的处理方式各异，需要统一接口规范，同时保留各模型的特殊处理逻辑。例如，某些模型可能选择忽略包含缺失值的样本，而另一些模型则会尝试推断缺失值。
评估准确性：改进评估指标计算，确保在存在缺失值的情况下仍能准确反映模型性能。这包括对加权计算、样本过滤等逻辑的优化。