imbalanced-learn项目中SMOTEENN采样方法的特性分析

2025-05-31 03:33:21作者：余洋婵Anita

概述

在机器学习分类任务中，处理类别不平衡数据集是一个常见挑战。imbalanced-learn库提供了多种采样方法来应对这一问题，其中SMOTEENN是一种结合过采样和欠采样的混合方法。本文将深入分析SMOTEENN方法的工作原理及其在实际应用中的表现特性。

SMOTEENN方法原理

SMOTEENN是两种采样技术的组合：

SMOTE（Synthetic Minority Over-sampling Technique）：通过合成少数类样本来增加少数类的样本数量
ENN（Edited Nearest Neighbours）：基于最近邻规则删除噪声样本和边界样本

这种组合方法的理论优势在于：先通过SMOTE增加少数类样本，再通过ENN清理可能引入的噪声样本，从而获得更清晰的类边界。

实际应用中的观察

在实际使用中，开发者可能会发现SMOTEENN处理后数据集的不平衡程度有时不减反增。这种现象源于ENN的工作机制：

SMOTE阶段会平衡两类样本数量
ENN阶段会基于最近邻规则删除"可疑"样本，包括：
- 被多数类样本包围的少数类样本
- 被少数类样本包围的多数类样本

由于原始多数类通常具有更丰富的样本分布，ENN处理后可能会保留更多多数类样本，导致最终数据集仍呈现一定不平衡。

方法设计的深层考量

这种看似"反直觉"的结果实际上是设计使然。SMOTEENN的核心目标并非严格平衡类别分布，而是：

通过SMOTE缓解少数类样本不足的问题
通过ENN提高分类边界质量
最终目标是提升分类器性能而非追求样本数量绝对平衡

自定义调整策略

对于需要更严格控制类别平衡的场景，开发者可以通过以下方式调整SMOTEENN行为：

from imblearn.under_sampling import EditedNearestNeighbours
from imblearn.combine import SMOTEENN

# 自定义ENN参数
custom_enn = EditedNearestNeighbours(
    sampling_strategy='auto',  # 可调整为'all'或指定比例
    n_neighbors=3,            # 调整近邻数
    kind_sel='all'            # 选择删除策略
)

smote_enn = SMOTEENN(enn=custom_enn)