类别不平衡处理实战指南：从采样技术到集成学习优化

2026-03-08 04:43:26作者：柏廷章Berta

在机器学习领域，类别不平衡（指数据集中各类别样本数量差异超过10:1的情况）是一个普遍存在的挑战，尤其在欺诈检测、疾病诊断等关键场景中，少数类样本往往蕴含着至关重要的信息。传统模型在不平衡数据上容易偏向多数类，导致少数类识别性能大幅下降。imbalanced-learn库作为专门解决这一问题的利器，提供了全面的采样与集成解决方案。本文将通过"问题解析→核心技术→实战策略→进阶拓展"的全新框架，深入探讨如何利用imbalanced-learn提升模型对少数类的识别能力，帮助读者掌握类别不平衡处理的关键技术与最佳实践。

一、问题解析：为何类别不平衡会导致模型失效？

类别不平衡问题本质上是数据分布与学习目标之间的矛盾。当训练数据中某类样本占比过高时，模型会自然地偏向预测多数类以获得更高的整体准确率，但这往往以牺牲少数类识别性能为代价。在实际应用中，少数类样本（如欺诈交易、患病案例）通常具有更高的业务价值，因此单纯追求整体准确率的模型在这些场景中毫无意义。

1.1 类别不平衡的三大危害

决策边界偏移：模型倾向于将样本预测为多数类，导致少数类的决策区域被严重压缩
特征学习偏差：模型过度关注多数类样本的特征模式，忽略少数类的独特特征
评估指标误导：高准确率掩盖了少数类识别能力的不足，造成模型性能的虚假繁荣

1.2 典型案例：医疗诊断中的类别不平衡

在癌症筛查数据集中，患病样本通常仅占1%-5%。如果直接使用传统模型训练，即使将所有样本都预测为健康（多数类），也能获得95%以上的准确率。但这样的模型在实际应用中毫无价值，因为它无法识别出任何一位癌症患者。这正是类别不平衡问题的核心危害——看似优秀的评估指标背后，是对关键少数类的完全忽视。

二、核心技术：从采样到集成的系统化解决方案

imbalanced-learn库提供了从数据层面到算法层面的完整解决方案。本节将从"原理图解→代码示例→适用场景"三个维度，深入解析组合采样与集成学习两大核心技术。

2.1 组合采样：平衡生成与噪声过滤的协同策略

组合采样通过"过采样生成+欠采样清洗"的两步策略，既解决样本数量不平衡问题，又减少噪声样本干扰。imbalanced-learn实现了两种经典组合方法：SMOTEENN与SMOTETomek。

2.1.1 SMOTEENN：编辑最近邻净化过采样结果

原理图解：SMOTEENN首先通过SMOTE算法生成少数类样本，解决数量不平衡问题；然后使用Edited Nearest Neighbours（ENN）算法移除那些被多数类样本包围的噪声点，提高样本质量。其净化效果较强，适合噪声较多的数据集。

代码示例（医疗数据应用）：

from imblearn.combine import SMOTEENN
from collections import Counter
from sklearn.datasets import make_classification

# 生成模拟医疗数据集（10%少数类）
X, y = make_classification(
    n_samples=10000, n_features=20,
    n_informative=15, n_redundant=5,
    weights=[0.9, 0.1], random_state=42
)

# 初始化SMOTEENN采样器
# SMOTEENN实现：[imblearn/combine/_smote_enn.py](https://gitcode.com/gh_mirrors/imb/imbalanced-learn/blob/e78ff7acc2d0362604f2578fad8e4a318345dfbe/imblearn/combine/_smote_enn.py?utm_source=gitcode_repo_files)
smote_enn = SMOTEENN(
    random_state=42,
    smote_k_neighbors=5,  # 用于生成新样本的最近邻数量
    enn_neighbors=3       # 用于净化的最近邻数量
)

# 执行采样
X_resampled, y_resampled = smote_enn.fit_resample(X, y)

# 查看采样前后类别分布变化
print(f"原始类别分布: {sorted(Counter(y).items())}")
print(f"SMOTEENN采样后: {sorted(Counter(y_resampled).items())}")

适用场景：医疗诊断、异常检测等对噪声敏感的领域，尤其是当数据集中存在较多边界模糊样本时。

2.1.2 SMOTETomek：Tomek链接净化过采样结果

原理图解：SMOTETomek同样先通过SMOTE生成少数类样本，然后使用Tomek Links技术识别并移除边界噪声样本。Tomek Links指两个不同类别样本间的最近邻对，其净化效果较ENN温和，适合需要保留更多原始分布特征的场景。

代码示例（金融数据应用）：

from imblearn.combine import SMOTETomek
from collections import Counter
from sklearn.datasets import make_classification

# 生成模拟金融欺诈数据集（5%少数类）
X, y = make_classification(
    n_samples=5000, n_features=25,
    n_informative=20, n_redundant=5,
    weights=[0.95, 0.05], random_state=42
)

# 初始化SMOTETomek采样器
# SMOTETomek实现：[imblearn/combine/_smote_tomek.py](https://gitcode.com/gh_mirrors/imb/imbalanced-learn/blob/e78ff7acc2d0362604f2578fad8e4a318345dfbe/imblearn/combine/_smote_tomek.py?utm_source=gitcode_repo_files)
smote_tomek = SMOTETomek(
    random_state=42,
    smote_k_neighbors=5,  # 用于生成新样本的最近邻数量
    tomek_neighbors=1     # 用于识别Tomek Links的最近邻数量
)

# 执行采样
X_resampled, y_resampled = smote_tomek.fit_resample(X, y)

# 查看采样前后类别分布变化
print(f"原始类别分布: {sorted(Counter(y).items())}")
print(f"SMOTETomek采样后: {sorted(Counter(y_resampled).items())}")

适用场景：金融欺诈检测、信用评分等需要平衡类别分布同时保留数据分布特征的场景。

2.1.3 过采样边界样本生成策略（原文未提及）

🔍 关键技术细节：SMOTE算法在生成新样本时，并非简单地在少数类样本间随机插值，而是优先在"边界样本"（即靠近决策边界的少数类样本）周围生成新样本。这种策略可以更有效地扩展少数类的决策区域，提高模型对少数类的识别能力。具体实现中，SMOTE通过计算样本的k近邻，仅在同类样本间进行插值，避免生成模糊样本。

2.2 集成方法：多模型协同提升稳定性

集成方法通过构建多个基分类器并融合其预测结果，降低单一模型的偏差与方差。imbalanced-learn实现了四种专为不平衡数据设计的集成模型，均支持scikit-learn兼容接口。

2.2.1 BalancedBaggingClassifier：平衡采样的Bagging集成

原理图解：传统Bagging方法随机采样数据子集训练基分类器，但在不平衡数据上仍倾向多数类。BalancedBaggingClassifier对每个子集先进行欠采样平衡，再训练基分类器，有效提升少数类识别能力。

代码示例：

from imblearn.ensemble import BalancedBaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import balanced_accuracy_score

# 生成不平衡数据集
X, y = make_classification(
    n_samples=10000, n_features=20,
    weights=[0.9, 0.1], random_state=42
)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化平衡Bagging分类器
# BalancedBaggingClassifier实现：[imblearn/ensemble/_bagging.py](https://gitcode.com/gh_mirrors/imb/imbalanced-learn/blob/e78ff7acc2d0362604f2578fad8e4a318345dfbe/imblearn/ensemble/_bagging.py?utm_source=gitcode_repo_files)
bbc = BalancedBaggingClassifier(
    base_estimator=DecisionTreeClassifier(max_depth=5),  # 基分类器
    sampling_strategy='auto',  # 自动计算采样比例
    replacement=False,         # 无放回采样
    n_estimators=20,           # 基分类器数量
    random_state=42
)

# 训练模型
bbc.fit(X_train, y_train)

# 预测与评估
y_pred = bbc.predict(X_test)
print(f"平衡准确率: {balanced_accuracy_score(y_test, y_pred):.4f}")

适用场景：中小规模数据集，需要平衡分类性能与计算效率的场景。

2.2.2 BalancedRandomForestClassifier：平衡森林

原理图解：在随机森林基础上改进，每个决策树都基于平衡采样的bootstrap子集训练，同时引入类别权重调整，有效解决传统随机森林在不平衡数据上的偏向性。

代码示例：

from imblearn.ensemble import BalancedRandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 生成不平衡数据集
X, y = make_classification(
    n_samples=10000, n_features=25,
    n_informative=20, n_redundant=5,
    weights=[0.95, 0.05], random_state=42
)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化平衡随机森林
# BalancedRandomForestClassifier实现：[imblearn/ensemble/_forest.py](https://gitcode.com/gh_mirrors/imb/imbalanced-learn/blob/e78ff7acc2d0362604f2578fad8e4a318345dfbe/imblearn/ensemble/_forest.py?utm_source=gitcode_repo_files)
brf = BalancedRandomForestClassifier(
    n_estimators=100,           # 树的数量
    max_depth=8,                # 树的最大深度
    sampling_strategy='auto',   # 自动平衡采样
    random_state=42
)

# 训练与评估
brf.fit(X_train, y_train)
y_pred = brf.predict(X_test)
print(classification_report(y_test, y_pred))

适用场景：需要处理高维特征数据，同时关注模型解释性的场景。

2.2.3 集成模型多样性度量方法（原文未提及）

🔍 关键技术细节：集成模型的性能很大程度上取决于基分类器的多样性。imbalanced-learn通过两种方式提高多样性：1) 样本多样性：通过不同的采样策略生成多样化的训练子集；2) 特征多样性：借鉴随机森林的特征随机选择机制。可以使用"分类器多样性度量"（如Q统计量、κ统计量）评估集成模型的多样性，一般来说，多样性越高，集成效果越好，但需避免过度多样性导致的性能下降。

2.3 技术演进时间线：从单一采样到组合策略

📊 类别不平衡处理技术演进：

2002年：Chawla等人提出SMOTE算法，首次通过合成样本解决少数类样本不足问题
2003年：Batista等人提出SMOTEENN组合策略，引入噪声过滤机制
2004年：Batista等人进一步提出SMOTETomek方法，使用Tomek Links进行边界净化
2009年：He等人提出EasyEnsemble方法，开创不平衡集成学习新思路
2015年：Lemaître等人发布imbalanced-learn库，系统整合各类采样与集成方法
2020年：imbalanced-learn 0.7版本引入TensorFlow/Keras集成支持，拓展深度学习应用场景

这一演进过程反映了类别不平衡处理从单一采样到组合策略，从数据层面到算法层面的全面发展。

三、实战策略：场景化决策树与最佳实践

3.1 如何选择合适的采样与集成方法？

💡 场景化决策树：

数据规模评估
- 小规模数据（<10,000样本）：优先考虑SMOTEENN+BalancedRandomForest
- 大规模数据（>100,000样本）：优先考虑RUSBoost或EasyEnsemble
噪声水平判断
- 高噪声数据：选择SMOTEENN（强净化）+ 正则化基分类器
- 低噪声数据：选择SMOTETomek（温和净化）+ 复杂基分类器
特征维度考量
- 低维数据（<50特征）：组合采样+集成方法可同时使用
- 高维数据（>100特征）：优先考虑集成方法，谨慎使用过采样
实时性要求
- 高实时性场景：选择RandomUnderSampler+轻量级集成
- 离线分析场景：可使用更复杂的SMOTE变体+深度集成

3.2 特征工程与采样方法的协同策略（原文未覆盖）

💡 实用技巧：特征工程与采样方法的协同使用可以大幅提升模型性能：

采样前特征选择：先使用互信息、卡方检验等方法选择与目标相关的特征，减少噪声特征对采样效果的干扰
特征标准化时机：过采样应在标准化之前进行，避免合成样本受原始数据分布影响；欠采样可在标准化之后进行
特征空间转换：对高维稀疏数据（如文本），先进行PCA、t-SNE等降维处理，再进行过采样，可避免维度灾难导致的采样质量下降

代码示例：

from imblearn.pipeline import Pipeline
from imblearn.combine import SMOTEENN
from sklearn.feature_selection import SelectKBest, mutual_info_classif
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import BalancedRandomForestClassifier

# 创建包含特征选择、采样和分类的完整 pipeline
pipeline = Pipeline([
    ('feature_selection', SelectKBest(mutual_info_classif, k=20)),  # 特征选择
    ('sampling', SMOTEENN(random_state=42)),                        # 组合采样
    ('scaling', StandardScaler()),                                  # 标准化
    ('classifier', BalancedRandomForestClassifier(random_state=42)) # 分类器
])

# 后续可直接使用pipeline进行fit/predict

3.3 集成模型的早停机制（原文未覆盖）

💡 实用技巧：为集成模型添加早停机制可以有效防止过拟合，提高泛化能力：

基于验证集性能的早停：监控集成模型在验证集上的性能，当连续多轮无提升时停止训练
基于多样性的早停：当新增基分类器不能显著提高集成多样性时停止训练
动态权重调整：根据基分类器在验证集上的表现动态调整其权重，而非简单平均

代码示例：

from imblearn.ensemble import RUSBoostClassifier
from sklearn.model_selection import train_test_split
import numpy as np

# 生成数据并分割
X, y = make_classification(n_samples=10000, weights=[0.9, 0.1], random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化带早停机制的RUSBoost
rusboost = RUSBoostClassifier(
    n_estimators=100,  # 最大基分类器数量
    random_state=42
)

best_score = 0
early_stopping_rounds = 5
no_improve_rounds = 0

# 手动实现早停逻辑
for i in range(1, 101):
    rusboost.n_estimators = i
    rusboost.fit(X_train, y_train)
    current_score = balanced_accuracy_score(y_val, rusboost.predict(X_val))
    
    if current_score > best_score:
        best_score = current_score
        no_improve_rounds = 0
        best_model = rusboost.copy()
    else:
        no_improve_rounds += 1
        if no_improve_rounds >= early_stopping_rounds:
            print(f"早停于第{i}轮，最佳轮次：{i-early_stopping_rounds}")
            break

# 使用最佳模型进行预测
y_pred = best_model.predict(X_test)

四、进阶拓展：评估指标、常见误区与未来方向

4.1 完整评估指标计算代码

类别不平衡问题中，单一的准确率指标无法全面反映模型性能。以下是关键评估指标的计算代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import (precision_recall_curve, average_precision_score,
                             matthews_corrcoef, confusion_matrix, classification_report)

def evaluate_imbalanced_model(y_true, y_pred_proba):
    """
    全面评估不平衡分类模型性能
    
    参数:
    y_true: 真实标签
    y_pred_proba: 预测概率（少数类）
    """
    # 计算不同阈值下的精确率和召回率
    precision, recall, thresholds = precision_recall_curve(y_true, y_pred_proba)
    ap = average_precision_score(y_true, y_pred_proba)
    
    # 计算MCC（马修斯相关系数）
    # 选择最佳阈值（精确率和召回率平衡点）
    f1_scores = 2 * precision * recall / (precision + recall + 1e-7)
    best_threshold = thresholds[np.argmax(f1_scores[:-1])]
    y_pred = (y_pred_proba >= best_threshold).astype(int)
    mcc = matthews_corrcoef(y_true, y_pred)
    
    # 混淆矩阵
    cm = confusion_matrix(y_true, y_pred)
    
    # 绘制PR曲线
    plt.figure(figsize=(10, 6))
    plt.plot(recall, precision, marker='.', label=f'PR曲线 (AP={ap:.3f})')
    plt.xlabel('召回率 (Recall)')
    plt.ylabel('精确率 (Precision)')
    plt.title('精确率-召回率曲线')
    plt.legend()
    plt.grid(True)
    plt.show()
    
    # 输出评估报告
    print(f"平均精确率 (AP): {ap:.4f}")
    print(f"马修斯相关系数 (MCC): {mcc:.4f}")
    print("\n分类报告:")
    print(classification_report(y_true, y_pred))
    print("\n混淆矩阵:")
    print(cm)
    
    return {
        'ap': ap,
        'mcc': mcc,
        'best_threshold': best_threshold,
        'precision': precision,
        'recall': recall
    }

# 使用示例
# y_pred_proba = model.predict_proba(X_test)[:, 1]  # 获取少数类预测概率
# evaluate_imbalanced_model(y_test, y_pred_proba)