Darts库中datetime_attribute_timeseries函数的热编码问题分析

2025-05-27 13:29:23作者：董宙帆

在时间序列分析中，特征工程是构建有效预测模型的关键步骤。Darts作为Python中一个强大的时间序列分析库，提供了丰富的特征处理功能。本文将深入分析Darts库中datetime_attribute_timeseries函数在实现热编码(one-hot encoding)时存在的一个技术问题，并提供解决方案。

问题背景

datetime_attribute_timeseries函数是Darts库中用于从时间索引生成日期时间特征的重要工具。该函数可以将时间属性(如小时、星期几、月份等)转换为数值特征，支持三种编码方式：

原始数值编码
热编码(one-hot encoding)
循环编码(cyclic encoding)

在实际使用中，当对"hour"(小时)和"weekday"(星期几)等时间属性进行热编码时，发现最后一个编码位始终为0，无法正确表示对应的时间属性值。

问题根源分析

经过深入代码分析，发现问题出在热编码的实现逻辑上。具体原因如下：

不同时间属性的取值范围不一致：
- 月份(month)：1-12
- 小时(hour)：0-23
- 星期几(weekday)：0-6
当前实现中，热编码生成时统一使用了+1的逻辑，这导致对于从0开始的属性(如hour和weekday)，最后一个编码位永远不会被激活。
具体表现为：
- hour_24列始终为0
- weekday_7列始终为0

技术解决方案

针对这一问题，我们提出了以下改进方案：

为每个时间属性定义取值范围字典：

num_values_dict = {
    "month": (1, 13),
    "weekday": (0, 7),
    "dayofweek": (0, 7),
    "day_of_week": (0, 7),
    "hour": (0, 24),
}

修改热编码生成逻辑，根据属性的实际取值范围生成编码：

values_df = pd.get_dummies(values)
# 填充缺失列(以防时间索引中未出现所有可能值)
for i in range(num_values_dict[attribute][0], num_values_dict[attribute][1]):
    if not (i in values_df.columns):
        values_df[i] = 0
values_df = values_df[range(num_values_dict[attribute][0], num_values_dict[attribute][1])]

实现细节说明

取值范围定义：为每个支持热编码的时间属性明确定义其取值范围，包括起始值和结束值。
热编码生成：
- 首先使用pandas的get_dummies函数生成原始热编码
- 然后检查并补全可能缺失的列(某些值可能在时间索引中未出现)
- 最后按照定义的取值范围重新排序列
兼容性处理：保留了原有函数的其他功能，包括：
- 循环编码(cyclic encoding)
- 时间索引扩展(until和add_length参数)
- 自定义列名(with_columns参数)
- 数据类型转换(dtype参数)