理解skorch训练中评分差异：上采样与交叉验证的陷阱

2025-06-04 15:36:37作者：滑思眉Philip

在机器学习模型训练过程中，我们经常会遇到训练集评分与验证集评分不一致的情况。本文将以skorch框架训练神经网络分类器为例，深入分析一个典型问题：为什么训练日志中显示的F1分数会比后续评估高出约0.1，而ROC AUC分数却保持相对一致。

问题现象

当使用skorch训练神经网络分类器时，开发者观察到以下现象：

训练日志中显示的F1分数（包括训练和验证集）比后续独立评估高出约0.1
ROC AUC分数在日志和后续评估中表现一致
数据集存在严重的类别不平衡问题

根本原因分析

经过深入排查，发现问题根源在于上采样技术与交叉验证的结合使用。具体机制如下：

上采样操作：为了处理类别不平衡问题，开发者对少数类样本进行了上采样，这导致训练数据量增加。
交叉验证的数据泄露：当上采样后的数据被送入交叉验证流程时，同一个样本的多个副本可能同时出现在训练集和验证集中。这是因为：
- 上采样通常通过复制少数类样本来实现
- 交叉验证会随机划分数据
- 原始样本及其副本可能被分配到不同的子集
评分差异的解释：
- F1分数对数据分布敏感，当验证集中包含训练集样本的副本时，模型表现会被高估
- ROC AUC对数据分布相对不敏感，因此受影响较小

技术细节

上采样与交叉验证的交互

# 典型的上采样操作（伪代码）
from sklearn.utils import resample

minority_class = df[df['target']==1]
majority_class = df[df['target']==0]

# 上采样少数类
minority_upsampled = resample(minority_class, 
                             replace=True,  # 允许重复采样
                             n_samples=len(majority_class))

# 组合数据集
upsampled_df = pd.concat([majority_class, minority_upsampled])

当这样的数据集进入交叉验证流程时，同一个样本的多个副本可能出现在不同子集，导致数据泄露。

评分指标的特性差异

F1分数：精确率和召回率的调和平均，对数据分布敏感
- 公式：F1 = 2*(Precision*Recall)/(Precision+Recall)
- 当验证集包含训练集样本时，模型表现会被高估
ROC AUC：衡量模型区分正负样本的能力，对数据分布相对稳健
- 计算的是排序质量，不受绝对分数影响
- 因此受数据泄露影响较小

解决方案

针对这一问题，有以下几种解决方案：

正确的上采样流程：
- 先划分训练测试集，再对训练集进行上采样
- 确保测试集保持原始分布

# 正确流程示例
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 仅在训练集上上采样
train_df = pd.concat([X_train, y_train], axis=1)
minority = train_df[train_df['target']==1]
majority = train_df[train_df['target']==0]

minority_upsampled = resample(minority, replace=True, n_samples=len(majority))
upsampled_train = pd.concat([majority, minority_upsampled])

X_train_up = upsampled_train.drop('target', axis=1)
y_train_up = upsampled_train['target']

使用分层抽样：
- 在交叉验证中使用分层抽样保持类别比例
- 避免需要上采样

from sklearn.model_selection import StratifiedKFold

cv = StratifiedKFold(n_splits=5)

替代不平衡处理方法：
- 类别权重：在损失函数中为不同类别分配不同权重
- 合成采样技术：如SMOTE，生成新的合成样本而非简单复制

# 在skorch中使用类别权重
class_weights = compute_class_weight('balanced', classes=[0,1], y=y_train)
net = NeuralNetClassifier(..., criterion__weight=torch.FloatTensor(class_weights))