UnbalancedDataset项目中SMOTE在Pipeline预测阶段的行为解析

2025-06-01 21:38:44作者：侯霆垣

概述

在机器学习实践中，处理类别不平衡数据是一个常见挑战。UnbalancedDataset项目提供了多种解决方案，其中SMOTE（合成少数类过采样技术）是最常用的方法之一。本文将深入探讨SMOTE在Pipeline中的行为机制，特别是在预测阶段的工作原理。

SMOTE的基本原理

SMOTE是一种通过合成新样本来解决类别不平衡问题的算法。其核心思想是在少数类样本之间进行插值，生成新的合成样本，从而平衡数据集。在训练阶段，SMOTE会执行以下操作：

对少数类样本进行分析
在特征空间中找到k近邻
在这些近邻之间随机插值生成新样本

Pipeline中的SMOTE行为

当SMOTE被集成到Pipeline中时，其行为具有以下特点：

训练阶段

在Pipeline的fit阶段，SMOTE会正常执行其过采样功能。具体流程为：

Pipeline依次调用每个步骤的fit或fit_resample方法
当遇到SMOTE时，会调用其fit_resample方法
生成平衡后的数据集传递给后续步骤

预测阶段

预测阶段的行为是许多开发者容易困惑的地方。关键点在于：

SMOTE不会在预测阶段执行任何操作
Pipeline通过_iter方法的filter_resample参数自动过滤掉所有具有fit_resample方法的步骤
预测数据直接绕过SMOTE等重采样器，仅经过转换器处理

技术实现细节

UnbalancedDataset项目通过以下机制实现这一行为：

def _iter(self, with_final=True, filter_passthrough=True, filter_resample=True):
    """生成(idx, (name, trans))元组的迭代器
    
    参数filter_resample控制是否过滤具有fit_resample方法的步骤
    """
    it = super()._iter(with_final, filter_passthrough)
    if filter_resample:
        return filter(lambda x: not hasattr(x[-1], "fit_resample"), it)
    else:
        return it