AIF360项目中COMPAS数据集分类阈值方向问题的技术解析

2025-06-30 08:59:18作者：管翌锬

背景介绍

在机器学习公平性研究领域，IBM开发的AIF360工具包是一个广泛使用的开源框架。该工具包提供了多种算法和评估指标，用于检测和减轻机器学习模型中的偏见。其中，COMPAS数据集是评估算法公平性的常用基准数据集之一。

COMPAS数据集与其他常见分类数据集的一个重要区别在于其标签定义。在大多数二分类问题中，我们通常将"1"定义为正类(positive class)或有利标签(favorable label)。然而，COMPAS数据集采用了相反的定义：

这种标签定义源于COMPAS数据集的实际应用背景。该数据集用于预测罪犯的再犯风险，其中0表示低风险(有利结果)，1表示高风险(不利结果)。

在模型评估过程中，我们需要将模型输出的概率分数转换为二元预测标签。这一过程通常涉及以下步骤：

对于标准数据集(有利标签=1)，分类逻辑通常为：

fav_inds = scores > best_class_thresh
labels[fav_inds] = favorable_label
labels[~fav_inds] = unfavorable_label

然而，对于COMPAS数据集，由于有利标签是0，直接应用上述逻辑会导致分类方向错误。正确的实现应该是：

fav_inds = scores < best_class_thresh
labels[fav_inds] = favorable_label  # 0
labels[~fav_inds] = unfavorable_label  # 1

AIF360工具包通过以下机制正确处理了这一特殊情况：

pos_ind = np.where(lmod.classes_ == dataset_orig_train.favorable_label)[0][0]

这种实现方式具有以下优点：

正确的分类阈值方向对于公平性评估至关重要。如果方向错误，会导致：

在使用AIF360工具包处理类似COMPAS的数据集时，建议：

通过理解这些技术细节，研究人员可以更准确地评估和改善机器学习模型的公平性表现。

登录后查看全文