PyTorch Vision中COCO数据集对压缩RLE掩码格式的支持

2025-05-13 19:13:05作者：董灵辛Dennis

在计算机视觉领域，COCO数据集格式因其丰富的标注信息而广受欢迎。PyTorch Vision库提供了对COCO格式的原生支持，但在处理分割掩码时存在一些格式兼容性问题，特别是对于压缩RLE格式的支持不够完善。

COCO数据集中的掩码格式

COCO数据集支持三种主要的分割掩码表示形式：

多边形格式：当标注中的iscrowd属性为0时使用，表示单个物体，格式为顶点坐标列表
未压缩RLE格式：当iscrowd为1时使用，表示人群等密集物体，格式为计数字典
压缩RLE格式：未压缩RLE的编码版本，使用字符串表示计数

问题背景

PyTorch Vision的CocoDetection数据集类及其转换包装器wrap_dataset_for_transforms_v2在处理掩码时，原本只支持多边形和未压缩RLE格式。当遇到压缩RLE格式的掩码时，会抛出值错误，因为内部转换函数segmentation_to_mask无法正确处理字符串形式的计数。

技术解决方案

为解决这一问题，PyTorch Vision团队对掩码处理逻辑进行了改进，增加了对压缩RLE格式的支持。新的处理流程如下：

首先检查掩码计数是否为字符串格式（压缩RLE）
如果是字符串格式，直接解码
如果是字典格式（未压缩RLE），先转换为压缩格式再解码
如果是多边形格式，先合并多边形再转换为RLE格式

实现细节

改进后的掩码处理函数采用了更健壮的条件判断逻辑：

def segmentation_to_mask(segmentation, *, canvas_size):
    if isinstance(segmentation["counts"], str):
        # 直接处理压缩RLE格式
        pass
    elif isinstance(segmentation, dict):
        # 处理未压缩RLE格式
        segmentation = mask.frPyObjects(segmentation, *canvas_size)
    else:
        # 处理多边形格式
        segmentation = mask.merge(mask.frPyObjects(segmentation, *canvas_size))
    
    return torch.from_numpy(mask.decode(segmentation))