Darts库中TimeSeries分组数据处理的最佳实践

2025-05-27 09:43:51作者：毕习沙Eudora

A python library for user-friendly forecasting and anomaly detection on time series.

项目地址：https://gitcode.com/gh_mirrors/da/darts

背景介绍

在时间序列分析领域，Darts是一个功能强大的Python库。当处理包含多个分组的时间序列数据时，用户经常需要使用TimeSeries.from_group_dataframe方法。这个方法允许用户将DataFrame中的数据按照指定列分组，并转换为多个TimeSeries对象。

核心问题

在分组处理过程中，如何处理分组标识列（如示例中的'item_id'）是一个常见挑战：

如果选择丢弃分组列（通过drop_group_cols参数），虽然可以避免不必要的静态协变量，但会丢失分组标识信息
如果保留分组列作为静态协变量，这些标识信息可能对模型训练没有帮助，甚至可能产生负面影响

解决方案

临时保留分组标识

建议在数据处理流程中暂时保留分组标识列，直到最终模型训练前再移除：

# 创建TimeSeries时保留分组列
series = TimeSeries.from_group_dataframe(
    df,
    group_cols=['item_id'],
    drop_group_cols=None  # 保留分组列
)

# 在数据处理完成后移除分组标识
series = [ts.with_static_covariates(
    ts.static_covariates.drop("item_id")
) for ts in series]

未来改进方向

Darts开发团队正在考虑为TimeSeries对象添加元数据属性（metadata attributes），这将提供更优雅的方式来处理分组标识等辅助信息。这种改进将允许用户：

将分组标识与模型使用的静态协变量分离
更方便地跟踪和管理各个时间序列的元信息
在数据处理流程中更灵活地访问和操作这些信息

实际应用建议

在实际项目中，建议：

在数据探索和预处理阶段保留分组标识
建立清晰的数据处理流程文档，明确何时移除分组标识
考虑创建自定义函数或类来封装这些操作，提高代码可维护性
关注Darts的版本更新，及时采用新的元数据处理功能

通过这种结构化的处理方式，可以在保持数据完整性的同时，确保模型训练不受无关标识信息的影响。

A python library for user-friendly forecasting and anomaly detection on time series.

项目地址：https://gitcode.com/gh_mirrors/da/darts

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook