基于SCAN的无监督图像分类教程：STL-10数据集实战

2026-02-04 04:57:55作者：史锋燃Gardner

本文将通过STL-10数据集，详细介绍如何使用SCAN（Semantic Clustering by Adopting Nearest neighbors）方法实现无监督图像分类。SCAN是一种无需人工标注即可学习图像分类的创新方法，其核心思想是通过自监督预训练和语义聚类两个阶段实现。

环境准备

硬件要求

建议使用配备NVIDIA GPU（1080TI或更高性能）的工作站进行实验。GPU加速能显著提升模型训练效率。

软件环境

需要配置以下环境：

Python 3.7+
PyTorch 1.6+
CUDA 10.2
cuDNN 7.5.6+

可通过conda创建专用环境：

conda create -n scan_env python=3.7
conda activate scan_env
conda install pytorch=1.6 torchvision cudatoolkit=10.2 -c pytorch

目录结构

项目需要建立以下目录结构用于存储模型和中间结果：

repository_eccv/
└── stl-10/
    └── pretext/

预训练任务（SimCLR）

SCAN方法的第一阶段是使用SimCLR进行自监督预训练，这一步骤可以在无标签数据上学习有效的视觉表示。

训练配置

配置文件configs/pretext/simclr_stl10.yml包含了STL-10数据集上的预训练参数。主要参数包括：

batch_size: 256
learning_rate: 0.5
temperature: 0.5
epochs: 200

执行训练

运行以下命令启动预训练：

python simclr.py --config_env configs/env.yml --config_exp configs/pretext/simclr_stl10.yml

使用预训练模型

为节省时间，可以直接使用提供的预训练模型。下载后需执行：

python tutorial_nn.py --config_env configs/env.yml --config_exp configs/pretext/simclr_stl10.yml

该步骤会计算最近邻，输出类似以下结果表示成功：

> Accuracy of top-20 nearest neighbors on train set is 72.81
> Accuracy of top-5 nearest neighbors on val set is 79.85

语义聚类（SCAN）

第二阶段使用SCAN算法在预训练特征上进行语义聚类。

聚类配置

配置文件configs/scan/scan_stl10.yml包含：

聚类数量：10（对应STL-10的类别数）
温度参数：0.1
训练周期：100
学习率：5e-5

执行聚类

运行以下命令启动聚类：

python scan.py --config_env configs/env.yml --config_exp configs/scan/scan_stl10.yml

典型输出结果包含多个评估指标：

> {'ACC': 0.8015, 'ARI': 0.6332, 'NMI': 0.6823, 'Top-5': 0.9906}

其中：

ACC：聚类准确率（约80.15%）
ARI：调整兰德指数（约0.6332）
NMI：标准化互信息（约0.6823）
Top-5：前5个最近邻的准确率（约99.06%）

结果可视化

SCAN提供了两种可视化方式帮助理解聚类结果：

1. 混淆矩阵

展示各类别间的混淆情况，可直观发现模型容易混淆的类别（如猫、狗、猴等视觉相似的类别）。

2. 原型可视化

展示每个聚类簇最具代表性的样本（即最接近簇中心的样本）。

执行以下命令生成可视化结果：

python eval.py --config_exp configs/scan/scan_stl10.yml --model repository_eccv/stl-10/scan/model.pth.tar --visualize_prototypes

技术原理分析

SCAN方法的创新性在于两阶段设计：

表示学习阶段：通过SimCLR等自监督方法学习图像的高级特征表示，使相似图像在特征空间中靠近。
语义聚类阶段：
- 利用最近邻关系构建语义相似性
- 通过一致性损失优化聚类分配
- 引入熵正则化防止退化解

这种方法突破了传统聚类算法（如K-means）在图像数据上的局限性，能够发现更具语义意义的类别划分。

应用建议

数据规模：SCAN适合中等规模数据集（数万至数十万样本）
类别确定：需要预先指定聚类数量，可通过肘部法则等启发式方法估计
领域适配：在不同领域应用时，建议调整预训练策略以获得更好效果
结果验证：可通过可视化原型和混淆矩阵验证聚类结果的合理性

总结

本教程详细介绍了在STL-10数据集上使用SCAN进行无监督分类的完整流程。实验结果表明，该方法无需任何人工标注即可达到约80%的分类准确率，证明了自监督学习和语义聚类结合的有效性。这种方法特别适用于标注成本高昂的应用场景，为计算机视觉领域的无监督学习提供了实用解决方案。

Unsupervised-Classification

SCAN: Learning to Classify Images without Labels, incl. SimCLR. [ECCV 2020]

项目地址：https://gitcode.com/gh_mirrors/un/Unsupervised-Classification

登录后查看全文