TorchMetrics文档构建中的随机性错误分析与解决方案

2025-07-03 18:13:24作者：江焘钦

问题背景

在TorchMetrics项目构建文档过程中，出现了两个与绘图功能相关的随机性错误。这些错误并非每次都会出现，而是在某些特定条件下才会触发，给项目的持续集成流程带来了不稳定性。

在group_fairness模块的绘图功能中，系统抛出了KeyError: 'EO_1_0'异常。这个错误表明在尝试访问字典中的键时，该键不存在。具体发生在绘图函数处理多步骤评估结果时，系统尝试访问一个预期存在但实际上缺失的指标键。

在dunn_index模块中，文档构建时出现了张量操作相关的错误。错误发生在计算聚类中心点之间的距离时，系统尝试对空张量或形状不匹配的张量进行操作。值得注意的是，这个错误特别奇怪，因为测试使用的是确定性张量，理论上不应该出现随机性失败。

分组公平性指标问题：根本原因在于绘图函数假设所有评估步骤都会产生相同的指标键集合，但实际运行中某些步骤可能由于数据分布原因没有生成特定子组的指标（如'EO_1_0'）。
Dunn指数问题：虽然测试数据是确定性的，但可能在某些边界条件下（如聚类中心数量过少或数据点分布特殊）会导致距离计算出现问题。特别是当所有数据点被分配到同一个聚类时，中心点距离计算就会失效。

这类随机性错误在指标库开发中较为常见，主要教训包括：

通过这次问题的解决，TorchMetrics的文档构建稳定性得到了提升，同时也为类似指标库的开发提供了有价值的参考经验。

登录后查看全文