首页
/ 使用BrewPOTS项目中的PyPOTS库实现时间序列聚类分析

使用BrewPOTS项目中的PyPOTS库实现时间序列聚类分析

2025-06-19 14:32:12作者:管翌锬

概述

时间序列聚类是数据分析中的重要任务,能够帮助我们发现相似模式的数据组。本文将介绍如何使用BrewPOTS项目中的PyPOTS库实现时间序列聚类分析,重点演示CRLI和VaDER两种先进的聚类算法。

环境准备

在开始之前,我们需要确保已安装PyPOTS库及其依赖项。建议使用Python 3.7或更高版本,并安装CUDA以支持GPU加速。

数据集准备

我们将使用PhysioNet-2012数据集,这是一个医疗时间序列数据集,包含ICU患者的生理指标记录。

from pypots.data.generating import gene_physionet2012
from pypots.utils.random import set_random_seed

# 设置随机种子保证结果可复现
set_random_seed(16)

# 加载PhysioNet-2012数据集
physionet2012_dataset = gene_physionet2012(artificially_missing_rate=0)

数据集加载后会自动进行预处理,包括数据分割、归一化等步骤。我们可以检查数据集结构:

print(physionet2012_dataset.keys())

数据准备

将数据集分为训练集和测试集:

import numpy as np

# 合并训练集和验证集
dataset_for_training = {
    "X": np.concatenate([physionet2012_dataset['train_X'], physionet2012_dataset['val_X']], axis=0),
    "y": np.concatenate([physionet2012_dataset['train_y'], physionet2012_dataset['val_y']], axis=0),
}

# 测试集
dataset_for_testing = {
    "X": physionet2012_dataset['test_X'],
    "y": physionet2012_dataset['test_y'],
}

CRLI聚类模型

CRLI(Clustering Representation Learning via Imputation)是一种基于生成对抗网络(GAN)的聚类方法,能够同时处理缺失值和进行聚类。

模型初始化

from pypots.optim import Adam
from pypots.clustering import CRLI

crli = CRLI(
    n_steps=physionet2012_dataset["n_steps"],
    n_features=physionet2012_dataset["n_features"],
    n_clusters=physionet2012_dataset["n_classes"],
    n_generator_layers=2,
    rnn_hidden_size=256,
    rnn_cell_type="GRU",
    decoder_fcn_output_dims=[256, 128],
    batch_size=32,
    epochs=10,
    patience=3,
    G_optimizer=Adam(lr=1e-3),
    D_optimizer=Adam(lr=1e-3),
    num_workers=0,
    device=None,
    saving_path="../tutorial_results/clustering/crli",
    model_saving_strategy="best",
)

模型训练

crli.fit(train_set=dataset_for_training)

模型评估

# 预测
crli_results = crli.predict(dataset_for_testing)
crli_prediction = crli_results["clustering"]

# 评估指标
from pypots.utils.metrics import calc_rand_index, calc_cluster_purity

RI = calc_rand_index(crli_prediction, dataset_for_testing["y"])
CP = calc_cluster_purity(crli_prediction, dataset_for_testing["y"])

print("测试聚类指标:")
print(f"兰德指数(RI): {RI}")
print(f"聚类纯度(CP): {CP}")

VaDER聚类模型

VaDER(Variational Deep Embedding with Recurrence)是一种基于变分自编码器(VAE)的聚类方法,特别适合时间序列数据。

模型初始化

from pypots.clustering import VaDER

vader = VaDER(
    n_steps=physionet2012_dataset["n_steps"],
    n_features=physionet2012_dataset["n_features"],
    n_clusters=physionet2012_dataset["n_classes"],
    rnn_hidden_size=128,
    d_mu_stddev=2,
    pretrain_epochs=20,
    batch_size=32,
    epochs=10,
    patience=3,
    optimizer=Adam(lr=1e-3),
    num_workers=0,
    device=None,
    saving_path="../tutorial_results/clustering/vader",
    model_saving_strategy="best",
)

模型训练

vader.fit(train_set=dataset_for_training)

模型评估

# 预测
vader_results = vader.predict(dataset_for_testing)
vader_prediction = vader_results["clustering"]

# 评估指标
RI = calc_rand_index(vader_prediction, dataset_for_testing["y"])
CP = calc_cluster_purity(vader_prediction, dataset_for_testing["y"])

print("测试聚类指标:")
print(f"兰德指数(RI): {RI}")
print(f"聚类纯度(CP): {CP}")

结果分析与比较

从实验结果可以看出:

  1. VaDER模型在兰德指数(RI)上表现更好,说明它能更准确地识别数据点之间的相似性关系
  2. 两种模型在聚类纯度(CP)上表现相当
  3. CRLI模型训练过程中需要同时优化生成器和判别器,计算开销更大
  4. VaDER模型利用了变分推断,对数据分布有更好的建模能力

实际应用建议

  1. 对于医疗时间序列数据,VaDER通常是更好的选择
  2. 如果数据有大量缺失值,CRLI可能更有优势
  3. 可以尝试调整以下超参数优化性能:
    • RNN隐藏层大小
    • 学习率
    • 批次大小
    • 训练轮数

总结

本文通过BrewPOTS项目中的PyPOTS库演示了两种先进的时间序列聚类方法。PyPOTS提供了简洁易用的API,使得复杂的时间序列分析任务变得简单。读者可以根据自己的数据特点选择合适的算法,并通过调整超参数进一步优化性能。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
260
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
854
505
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
254
295
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
331
1.08 K
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
397
370
note-gennote-gen
一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
83
4
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
kernelkernel
deepin linux kernel
C
21
5