TorchMetrics中带前缀的MetricCollection绘图问题解析

2025-07-03 08:08:10作者：宗隆裙

问题背景

在使用TorchMetrics库进行多分类模型评估时，开发者经常需要同时跟踪训练集、验证集和测试集上的多个指标。MetricCollection提供了一种便捷的方式来组织和管理这些指标。然而，当尝试为不同阶段(训练/验证/测试)的指标添加前缀(如'train_')后，调用plot()方法时会出现KeyError异常。

问题复现

通过以下代码可以复现该问题：

import torchmetrics
import torch
import matplotlib.pyplot as plt

# 测试数据
preds = torch.tensor([[0., 0., 1.],
                     [1., 0., 0.],
                     [0., 1., 0.],
                     [0., 0., 1.],
                     [0., 0., 1.],
                     [1., 0., 0.]])
target = torch.tensor([2, 0, 1, 2, 0, 1])

# 基础指标集合
conf_and_roc = torchmetrics.MetricCollection([
    torchmetrics.ROC(task="multiclass", num_classes=3),
    torchmetrics.ConfusionMatrix(task="multiclass", num_classes=3)
])

# 克隆并添加前缀
train_conf_and_roc = conf_and_roc.clone(prefix='train_')

# 更新指标
train_conf_and_roc.update(preds, target)

# 尝试绘图 - 这里会抛出KeyError
res = train_conf_and_roc.plot()
plt.show()

错误分析

当调用plot()方法时，系统会抛出KeyError: 'MulticlassROC'异常。这是因为在内部实现中，MetricCollection.plot()方法尝试使用指标的类名作为键来访问结果，而没有考虑前缀的影响。

技术原理

MetricCollection的plot()方法内部逻辑如下：

遍历集合中的每个指标
获取指标的计算结果
调用每个指标的plot()方法生成可视化图表

问题出在第二步，当指标有前缀时，结果字典中的键会包含前缀(如'train_MulticlassROC')，但方法内部仍然尝试使用原始类名(如'MulticlassROC')来访问结果。

解决方案

对于需要为不同阶段添加前缀的场景，目前有以下几种解决方案：

不使用前缀：如果不需要区分不同阶段的指标，直接使用无前缀的MetricCollection
手动绘图：对于有前缀的MetricCollection，可以手动获取结果并调用单个指标的plot方法：

# 获取计算结果
results = train_conf_and_roc.compute()

# 手动绘制每个指标
for metric_name, metric_value in results.items():
    metric = train_conf_and_roc[metric_name.replace('train_', '')]
    metric.plot(metric_value)
    plt.show()