使用BrewPOTS项目中的PyPOTS库实现时间序列聚类分析

2025-06-19 23:25:28作者：管翌锬

概述

时间序列聚类是数据分析中的重要任务，能够帮助我们发现相似模式的数据组。本文将介绍如何使用BrewPOTS项目中的PyPOTS库实现时间序列聚类分析，重点演示CRLI和VaDER两种先进的聚类算法。

环境准备

在开始之前，我们需要确保已安装PyPOTS库及其依赖项。建议使用Python 3.7或更高版本，并安装CUDA以支持GPU加速。

数据集准备

我们将使用PhysioNet-2012数据集，这是一个医疗时间序列数据集，包含ICU患者的生理指标记录。

from pypots.data.generating import gene_physionet2012
from pypots.utils.random import set_random_seed

# 设置随机种子保证结果可复现
set_random_seed(16)

# 加载PhysioNet-2012数据集
physionet2012_dataset = gene_physionet2012(artificially_missing_rate=0)

数据集加载后会自动进行预处理，包括数据分割、归一化等步骤。我们可以检查数据集结构：

print(physionet2012_dataset.keys())

数据准备

将数据集分为训练集和测试集：

import numpy as np

# 合并训练集和验证集
dataset_for_training = {
    "X": np.concatenate([physionet2012_dataset['train_X'], physionet2012_dataset['val_X']], axis=0),
    "y": np.concatenate([physionet2012_dataset['train_y'], physionet2012_dataset['val_y']], axis=0),
}

# 测试集
dataset_for_testing = {
    "X": physionet2012_dataset['test_X'],
    "y": physionet2012_dataset['test_y'],
}

CRLI聚类模型

CRLI(Clustering Representation Learning via Imputation)是一种基于生成对抗网络(GAN)的聚类方法，能够同时处理缺失值和进行聚类。

模型初始化

from pypots.optim import Adam
from pypots.clustering import CRLI

crli = CRLI(
    n_steps=physionet2012_dataset["n_steps"],
    n_features=physionet2012_dataset["n_features"],
    n_clusters=physionet2012_dataset["n_classes"],
    n_generator_layers=2,
    rnn_hidden_size=256,
    rnn_cell_type="GRU",
    decoder_fcn_output_dims=[256, 128],
    batch_size=32,
    epochs=10,
    patience=3,
    G_optimizer=Adam(lr=1e-3),
    D_optimizer=Adam(lr=1e-3),
    num_workers=0,
    device=None,
    saving_path="../tutorial_results/clustering/crli",
    model_saving_strategy="best",
)

模型训练

crli.fit(train_set=dataset_for_training)

模型评估

# 预测
crli_results = crli.predict(dataset_for_testing)
crli_prediction = crli_results["clustering"]

# 评估指标
from pypots.utils.metrics import calc_rand_index, calc_cluster_purity

RI = calc_rand_index(crli_prediction, dataset_for_testing["y"])
CP = calc_cluster_purity(crli_prediction, dataset_for_testing["y"])

print("测试聚类指标:")
print(f"兰德指数(RI): {RI}")
print(f"聚类纯度(CP): {CP}")

VaDER聚类模型

VaDER(Variational Deep Embedding with Recurrence)是一种基于变分自编码器(VAE)的聚类方法，特别适合时间序列数据。

模型初始化

from pypots.clustering import VaDER

vader = VaDER(
    n_steps=physionet2012_dataset["n_steps"],
    n_features=physionet2012_dataset["n_features"],
    n_clusters=physionet2012_dataset["n_classes"],
    rnn_hidden_size=128,
    d_mu_stddev=2,
    pretrain_epochs=20,
    batch_size=32,
    epochs=10,
    patience=3,
    optimizer=Adam(lr=1e-3),
    num_workers=0,
    device=None,
    saving_path="../tutorial_results/clustering/vader",
    model_saving_strategy="best",
)

模型训练

vader.fit(train_set=dataset_for_training)

模型评估

# 预测
vader_results = vader.predict(dataset_for_testing)
vader_prediction = vader_results["clustering"]

# 评估指标
RI = calc_rand_index(vader_prediction, dataset_for_testing["y"])
CP = calc_cluster_purity(vader_prediction, dataset_for_testing["y"])

print("测试聚类指标:")
print(f"兰德指数(RI): {RI}")
print(f"聚类纯度(CP): {CP}")

结果分析与比较

从实验结果可以看出：

VaDER模型在兰德指数(RI)上表现更好，说明它能更准确地识别数据点之间的相似性关系
两种模型在聚类纯度(CP)上表现相当
CRLI模型训练过程中需要同时优化生成器和判别器，计算开销更大
VaDER模型利用了变分推断，对数据分布有更好的建模能力

实际应用建议

对于医疗时间序列数据，VaDER通常是更好的选择
如果数据有大量缺失值，CRLI可能更有优势
可以尝试调整以下超参数优化性能：
- RNN隐藏层大小
- 学习率
- 批次大小
- 训练轮数

总结

本文通过BrewPOTS项目中的PyPOTS库演示了两种先进的时间序列聚类方法。PyPOTS提供了简洁易用的API，使得复杂的时间序列分析任务变得简单。读者可以根据自己的数据特点选择合适的算法，并通过调整超参数进一步优化性能。

登录后查看全文

使用BrewPOTS项目中的PyPOTS库实现时间序列聚类分析

概述

环境准备

数据集准备

数据准备

CRLI聚类模型

模型初始化

模型训练

模型评估

VaDER聚类模型

模型初始化

模型训练

模型评估

结果分析与比较

实际应用建议

总结

热门内容推荐

最新内容推荐

项目优选

使用BrewPOTS项目中的PyPOTS库实现时间序列聚类分析

概述

环境准备

数据集准备

数据准备

CRLI聚类模型

模型初始化

模型训练

模型评估

VaDER聚类模型

模型初始化

模型训练

模型评估

结果分析与比较

实际应用建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选