PyTorch Image Models项目中Albumentations数据增强的集成实践

2025-05-04 22:56:37作者：霍妲思

The largest collection of PyTorch image encoders / backbones. Including train, eval, inference, export scripts, and pretrained weights -- ResNet, ResNeXT, EfficientNet, NFNet, Vision Transformer (ViT), MobileNetV4, MobileNet-V3 & V2, RegNet, DPN, CSPNet, Swin Transformer, MaxViT, CoAtNet, ConvNeXt, and more

项目地址：https://gitcode.com/GitHub_Trending/py/pytorch-image-models

在计算机视觉领域，数据增强是提升模型泛化能力的重要手段。本文将深入探讨如何在PyTorch Image Models（timm）项目中集成Albumentations这一强大的数据增强库。

Albumentations与Torchvision的差异

Albumentations是一个基于OpenCV的快速图像增强库，相比Torchvision的transforms，它提供了更丰富的增强操作和更优的性能。然而，两者的工作流程存在显著差异：

数据格式要求不同：Torchvision通常处理PIL图像或张量，而Albumentations需要numpy数组作为输入
转换流程不兼容：两者不能直接在同一Compose管道中混合使用

集成方案设计

在timm项目中集成Albumentations有以下几种可行方案：

方案一：完全替换Torchvision

最直接的方法是使用Albumentations完全替代Torchvision的transforms。这种方案需要：

将PIL图像转换为numpy数组
应用Albumentations的Compose
将结果转换回张量格式

import albumentations as A
from albumentations.pytorch import ToTensorV2

transform = A.Compose([
    A.RandomRotate90(),
    A.Flip(),
    A.Normalize(),
    ToTensorV2(),
])

方案二：混合使用两种增强库

如果需要保留部分Torchvision的transforms，可以创建自定义wrapper：

from torchvision import transforms
import albumentations as A

class AlbumentationsWrapper:
    def __init__(self, alb_transform):
        self.alb_transform = alb_transform
        
    def __call__(self, img):
        # 将PIL图像转换为numpy数组
        img_np = np.array(img)
        # 应用Albumentations增强
        augmented = self.alb_transform(image=img_np)['image']
        # 转换回PIL图像
        return Image.fromarray(augmented)

# 创建混合增强管道
tfl = [
    AlbumentationsWrapper(A.RandomRotate90()),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize(mean, std)
]
transform = transforms.Compose(tfl)