MLJAR AutoML分类任务中的预测阈值与标签关系解析

2025-06-26 01:21:41作者：凤尚柏Louis

在机器学习分类任务中，预测结果的解释是一个关键环节。本文将以MLJAR AutoML项目为例，深入探讨分类预测中概率输出与最终标签之间的关系，帮助用户正确理解和使用模型的预测结果。

预测结果的数据结构

MLJAR AutoML的predict_all方法会返回一个包含多列的数据框，其中最重要的三列是：

prediction_[class1]：样本属于class1的概率
prediction_[class2]：样本属于class2的概率
label：模型最终预测的类别标签

预测阈值的重要性

初学者常犯的一个错误是假设分类阈值为0.5。实际上，MLJAR AutoML会根据验证集表现自动优化阈值，这个优化后的阈值通常不等于0.5。

在项目目录的results_path/Ensemble/README.md文件中，可以找到类似如下的信息：

## Confusion matrix (at threshold=0.570203)
|                      |   Predicted as away_team |   Predicted as home_team |
|:---------------------|-------------------------:|-------------------------:|
| Labeled as away_team |                    12056 |                     5508 |
| Labeled as home_team |                     8881 |                    13031 |

这表明模型选择了0.570203作为最佳分类阈值，而不是默认的0.5。

预测结果的正确解读

当预测概率低于阈值时，模型会预测为类别0（在示例中为"away_team"）；当高于阈值时，预测为类别1（"home_team"）。例如：

当prediction_away_team=0.493569时：
- 虽然概率低于50%，但由于0.493569 < 0.570203，仍被分类为"away_team"
当prediction_away_team=0.563400时：
- 概率56.34% > 阈值57.0203%，因此被分类为"home_team"