ADTK 时间序列异常检测工具包使用教程

2024-09-13 09:24:06作者：范垣楠Rhoda

1. 项目介绍

ADTK（Anomaly Detection Toolkit）是一个用于无监督/基于规则的时间序列异常检测的Python包。由于异常的性质在不同情况下可能有所不同，因此一个模型可能无法适用于所有异常检测问题。选择和组合适当的检测算法（检测器）、特征工程方法（转换器）和集成方法（聚合器）是构建有效异常检测模型的关键。

ADTK提供了一组常见的检测器、转换器和聚合器，并具有统一的API，以及将它们连接在一起的管道类。此外，它还提供了一些函数来处理和可视化时间序列和异常事件。

2. 项目快速启动

安装

首先，确保你已经安装了Python 3.5或更高版本。然后，你可以通过以下命令从PyPI安装ADTK：

pip install adtk

或者，你可以从源代码安装最新的（但可能不稳定的）版本：

git clone https://github.com/arundo/adtk.git
cd adtk/
git checkout develop
pip install ./

快速启动示例

以下是一个简单的示例，展示如何使用ADTK检测时间序列中的季节性异常。

import pandas as pd
from adtk.data import validate_series
from adtk.detector import SeasonalAD
from adtk.visualization import plot

# 加载并验证训练数据
s_train = pd.read_csv("training.csv", index_col="Datetime", parse_dates=True, squeeze=True)
s_train = validate_series(s_train)

# 可视化训练数据
plot(s_train)

# 检测季节性异常
seasonal_ad = SeasonalAD()
anomalies = seasonal_ad.fit_detect(s_train)

# 可视化检测结果
plot(s_train, anomaly=anomalies, anomaly_color="red", anomaly_tag="marker")

3. 应用案例和最佳实践

案例1：交通流量异常检测

假设你有一个城市的交通流量数据，并且你希望检测出违反季节性模式的异常情况。你可以使用ADTK中的SeasonalAD检测器来实现这一目标。

# 加载测试数据
s_test = pd.read_csv("testing.csv", index_col="Datetime", parse_dates=True, squeeze=True)
s_test = validate_series(s_test)

# 应用训练好的模型
anomalies_pred = seasonal_ad.detect(s_test)

# 可视化预测结果
plot(s_test, anomaly=anomalies_pred, ts_linewidth=1, anomaly_color='red', anomaly_tag="marker")

案例2：电力消耗异常检测

在电力消耗数据中，异常可能表现为突然的峰值或谷值。你可以使用ADTK中的ThresholdAD检测器来检测这些异常。

from adtk.detector import ThresholdAD

# 设置阈值
threshold_ad = ThresholdAD(high=3000, low=1000)
anomalies = threshold_ad.detect(s_train)

# 可视化检测结果
plot(s_train, anomaly=anomalies, anomaly_color="red", anomaly_tag="marker")