解决类别不平衡难题：imbalanced-learn组合采样与集成方法实战指南

2026-02-04 05:12:18作者：董斯意

项目地址：https://gitcode.com/gh_mirrors/imb/imbalanced-learn

类别不平衡（Class Imbalance）是机器学习中常见的挑战，尤其在欺诈检测、疾病诊断等关键场景中，少数类样本往往蕴含重要信息。传统模型在不平衡数据上容易偏向多数类，导致少数类识别性能下降。imbalanced-learn库提供了全面的采样与集成解决方案，本文将聚焦组合采样（Combine Sampling）与集成方法（Ensemble Methods）两大核心技术，通过实战案例展示如何有效提升模型对少数类的识别能力。

组合采样：平衡生成与噪声过滤

组合采样通过"过采样生成+欠采样清洗"的两步策略，既解决样本数量不平衡问题，又减少噪声样本干扰。imbalanced-learn实现了两种经典组合方法：SMOTEENN与SMOTETomek，核心源码位于imblearn/combine/目录。

SMOTEENN：编辑最近邻净化过采样结果

SMOTEENN结合SMOTE过采样与Edited Nearest Neighbours（ENN）欠采样。先通过SMOTE生成少数类样本，再用ENN移除被多数类样本包围的噪声点。其特点是净化效果强，适合噪声较多的数据集。

基础使用代码如下：

from imblearn.combine import SMOTEENN
from collections import Counter

# 初始化采样器
smote_enn = SMOTEENN(random_state=0)
# 执行采样
X_resampled, y_resampled = smote_enn.fit_resample(X, y)
# 查看采样后类别分布
print(f"原始类别分布: {sorted(Counter(y).items())}")
print(f"SMOTEENN采样后: {sorted(Counter(y_resampled).items())}")

SMOTETomek：Tomek链接净化过采样结果

SMOTETomek则使用Tomek Links技术识别并移除边界噪声样本。Tomek Links指两个不同类别样本间的最近邻对，其净化效果较ENN温和，适合需要保留更多原始分布特征的场景。

两种组合采样方法的效果对比可通过examples/combine/plot_comparison_combine.py示例直观观察。该脚本生成三维类别数据，对比SMOTE、SMOTEENN和SMOTETomek的采样结果：

组合采样效果对比

注：实际图片路径需根据项目结构调整，建议参考示例代码生成可视化结果

集成方法：多模型协同提升稳定性

集成方法通过构建多个基分类器并融合其预测结果，降低单一模型的偏差与方差。imbalanced-learn在imblearn/ensemble/中实现了四种专为不平衡数据设计的集成模型，均支持scikit-learn兼容接口。

BalancedBaggingClassifier：平衡采样的Bagging集成

传统Bagging方法随机采样数据子集训练基分类器，但在不平衡数据上仍倾向多数类。BalancedBaggingClassifier对每个子集先进行欠采样平衡，再训练基分类器，有效提升少数类识别能力。

关键参数配置：

from imblearn.ensemble import BalancedBaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bbc = BalancedBaggingClassifier(
    base_estimator=DecisionTreeClassifier(),
    sampling_strategy='auto',  # 自动计算采样比例
    replacement=False,        # 无放回采样
    n_estimators=10,          # 基分类器数量
    random_state=0
)
bbc.fit(X_train, y_train)

BalancedRandomForestClassifier：平衡森林

在随机森林基础上改进，每个决策树都基于平衡采样的bootstrap子集训练，同时引入类别权重调整，源码实现见imblearn/ensemble/_forest.py。

RUSBoostClassifier：随机欠采样增强

结合随机欠采样（Random Under-Sampling）与AdaBoost算法，每轮迭代前对多数类欠采样，强制模型关注难分样本，适合极度不平衡数据集。

EasyEnsembleClassifier：多平衡子集集成

通过多次随机欠采样生成多个平衡子集，分别训练AdaBoost分类器后集成，有效降低单一欠采样带来的方差。

四种集成方法的性能对比可通过examples/ensemble/plot_comparison_ensemble_classifier.py示例验证，该脚本在人工数据集上对比传统Bagging与四种不平衡集成方法的平衡准确率（Balanced Accuracy）。

实战建议与最佳实践

方法选择指南

场景特点	推荐方法	注意事项
中小规模数据集	SMOTEENN + BalancedRandomForest	关注采样比例对模型的影响
大规模高噪声数据	SMOTETomek + RUSBoost	控制基分类器复杂度避免过拟合
多类别不平衡问题	EasyEnsemble + 类别权重调整	参考examples/applications/plot_multi_class_under_sampling.py

评估指标选择

避免使用准确率（Accuracy）作为唯一评估指标，推荐组合使用：

精确率-召回率曲线（PR Curve）及AP值
F1分数（F1-Score）
马修斯相关系数（MCC）
混淆矩阵可视化

相关实现可参考doc/metrics.rst文档及examples/evaluation/plot_metrics.py示例。

常见陷阱与解决方案

过采样噪声放大：当类别重叠严重时，SMOTE易生成模糊样本。解决方案：使用SMOTEENN并调整enn_neighbors参数。
集成模型过拟合：基分类器多样性不足导致过拟合。解决方案：增加max_samples参数或使用不同基分类器。
计算资源消耗：组合采样+集成方法计算成本较高。优化方案：参考examples/model_selection/plot_validation_curve.py进行参数剪枝。

总结与扩展学习

imbalanced-learn的组合采样与集成方法为类别不平衡问题提供了系统解决方案。实际应用中建议通过doc/user_guide.rst系统学习，结合examples/目录下的40+实战示例进行调优。进阶用户可参考doc/developers_utils.rst开发自定义采样器与集成策略。

项目完整文档与API参考见doc/index.rst，建议配合README.rst中的安装指南与快速入门示例使用，快速掌握类别不平衡处理技术。

imbalanced-learn

项目地址：https://gitcode.com/gh_mirrors/imb/imbalanced-learn

登录后查看全文

解决类别不平衡难题：imbalanced-learn组合采样与集成方法实战指南

组合采样：平衡生成与噪声过滤

SMOTEENN：编辑最近邻净化过采样结果

SMOTETomek：Tomek链接净化过采样结果

集成方法：多模型协同提升稳定性

BalancedBaggingClassifier：平衡采样的Bagging集成

BalancedRandomForestClassifier：平衡森林

RUSBoostClassifier：随机欠采样增强

EasyEnsembleClassifier：多平衡子集集成

实战建议与最佳实践

方法选择指南

评估指标选择

常见陷阱与解决方案

总结与扩展学习

热门内容推荐

最新内容推荐

项目优选

解决类别不平衡难题：imbalanced-learn组合采样与集成方法实战指南

组合采样：平衡生成与噪声过滤

SMOTEENN：编辑最近邻净化过采样结果

SMOTETomek：Tomek链接净化过采样结果

集成方法：多模型协同提升稳定性

BalancedBaggingClassifier：平衡采样的Bagging集成

BalancedRandomForestClassifier：平衡森林

RUSBoostClassifier：随机欠采样增强

EasyEnsembleClassifier：多平衡子集集成

实战建议与最佳实践

方法选择指南

评估指标选择

常见陷阱与解决方案

总结与扩展学习

相关内容推荐

热门内容推荐

最新内容推荐

项目优选