TorchMetrics中SSIM计算的两处关键问题解析

2025-07-03 12:43:20作者：邓越浪Henry

引言

在图像质量评估领域，结构相似性指数(SSIM)是一个广泛使用的指标。作为PyTorch生态中的重要组件，TorchMetrics库提供了SSIM的高效实现。然而，近期发现其实现中存在两个关键问题，可能影响计算结果准确性。

在SSIM计算过程中，TorchMetrics首先对输入图像进行了反射填充(padding)操作：

preds = F.pad(preds, (pad_w, pad_w, pad_h, pad_h), mode="reflect")
target = F.pad(target, (pad_w, pad_w, pad_h, pad_h), mode="reflect")

填充的目的是为了确保卷积操作可以在图像边缘正常进行。然而，在后续处理中，代码又对计算结果进行了反向裁剪：

ssim_idx = ssim_idx_full_image[..., pad_h:-pad_h, pad_w:-pad_w]

这种双重操作会导致边缘信息丢失。实际上，在已经进行反射填充的情况下，卷积结果的尺寸与原始图像相同，无需再次裁剪。这种裁剪反而会损失图像边缘区域的结构相似性信息。

TorchMetrics的SSIM实现允许用户选择是否使用高斯核进行加权计算。代码中存在两个相关参数：

问题在于，即使当用户选择不使用高斯核时，填充尺寸仍然基于gauss_kernel_size计算，而不是用户指定的kernel_size：

gauss_kernel_size = [int(3.5 * s + 0.5) * 2 + 1 for s in sigma]
pad_h = (gauss_kernel_size[0] - 1) // 2
pad_w = (gauss_kernel_size[1] - 1) // 2

这会导致当用户指定非高斯核时，填充尺寸与实际的卷积核尺寸不匹配，可能影响计算结果。

这两个问题会对SSIM计算结果产生以下影响：

边缘信息丢失会使得图像边缘区域的结构相似性不被计入最终结果，导致SSIM值偏高（因为边缘通常是变化较大的区域）
填充尺寸错误可能导致：
- 当实际kernel_size大于基于sigma计算的尺寸时，边缘区域的卷积计算不完整
- 当实际kernel_size小于计算尺寸时，浪费计算资源

针对这两个问题，建议进行以下修正：

TorchMetrics作为PyTorch生态中重要的评估指标库，其SSIM实现的准确性至关重要。本文指出的两个问题虽然看似简单，但可能对评估结果产生系统性偏差。建议用户在使用时注意这些问题，或等待官方修复版本发布。对于需要精确评估图像质量的场景，可以考虑暂时使用其他实现或自行修正这些问题。

登录后查看全文