在Darts项目中自定义时间序列数据加载机制的技术实践

2025-05-27 15:14:15作者：牧宁李

背景介绍

Darts是一个强大的Python库，专门用于时间序列预测和分析。在实际应用中，开发者经常需要自定义数据加载过程，特别是当处理包含缺失值或需要特殊滑动窗口配置的时间序列数据时。

Darts的数据加载架构

Darts的数据处理流程主要涉及两个核心组件：

Dataset类：负责将原始时间序列转换为适合模型训练的块(chunks)，并处理维度转换（特别是协变量）
DataLoader：主要负责批量提供数据、打乱顺序等操作

这种架构设计遵循了PyTorch的标准数据处理模式，其中Dataset负责数据转换，而DataLoader负责数据服务。

自定义数据加载的实现方法

使用fit_from_dataset和predict_from_dataset

Darts提供了fit_from_dataset和predict_from_dataset方法，允许开发者传入自定义的数据集对象。这些方法支持以下内置数据集类：

GenericShiftedDataset：通用的滑动窗口数据集
GenericInferenceDataset：通用的推理数据集
PastCovariatesSequentialDataset：针对过去协变量的顺序数据集
PastCovariatesInferenceDataset：针对过去协变量的推理数据集

开发者可以基于这些类实现自定义的数据处理逻辑，包括特殊的滑动窗口配置和缺失值处理策略。

实现自定义Dataset

要创建自定义的数据加载逻辑，建议：

继承或参考Darts内置的Dataset类
重写数据转换逻辑，实现特定的滑动窗口策略
确保训练和推理阶段使用一致的Dataset实现

性能优化注意事项

虽然PyTorch Lightning会建议增加DataLoader的num_workers参数来提升性能，但实际应用中需要注意：

增加worker数量并不总是能提高性能
当前版本的Darts尚不支持直接配置num_workers参数
数据处理的瓶颈往往在Dataset实现而非DataLoader

最佳实践建议

优先通过Dataset类实现数据处理逻辑，而非尝试修改DataLoader
确保训练和推理阶段的数据处理一致性
对于复杂的数据转换需求，考虑创建自定义的Dataset子类
性能优化应首先关注Dataset实现效率

通过理解Darts的数据加载架构和合理利用其提供的扩展点，开发者可以灵活地实现各种复杂的时间序列数据处理需求，同时保持代码的整洁和可维护性。

darts

A python library for user-friendly forecasting and anomaly detection on time series.

项目地址：https://gitcode.com/gh_mirrors/da/darts

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

845

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。