在pytorch-image-models中集成Albumentations进行图像增强

2025-05-04 04:20:05作者：袁立春Spencer

**pytorch-image-models**：这是一款强大的PyTorch库，专为图像识别领域设计，集成了丰富的先进模型与特性。它支持高效的训练和推断，包括最新的ViT变种、MobileNetV4及其混合版本，还有对CLIP模型的广泛支持。此库强调灵活性与性能，让研究人员和开发者能够轻松实验不同的架构，并利用预训练权重加速应用开发。通过持续更新和优化，如增加了注意力提取功能、改进了特征提取支持和设备兼容性，确保了在各种规模的项目中都能发挥出色表现。现在，通过Hugging Face Hub获取模型权重，更便捷地连接到最新研究。无论是深度学习新手还是专家，**pytorch-image-models**都是构建和探索先进视觉模型的强大工具箱。

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-image-models

引言

在计算机视觉任务中，数据增强是提高模型泛化能力的重要手段。pytorch-image-models作为PyTorch生态中广泛使用的图像分类模型库，默认使用torchvision的transforms进行数据增强。然而，许多开发者希望集成更强大的Albumentations库来实现更丰富的增强操作。

Albumentations与torchvision transforms的区别

Albumentations是一个专门为计算机视觉任务设计的高性能数据增强库，相比torchvision的transforms有以下优势：

提供更多样化的增强操作
对目标检测、语义分割等任务有更好的支持
通常有更好的性能表现

集成挑战

在pytorch-image-models中直接集成Albumentations并非简单替换，主要存在以下技术难点：

数据格式不兼容：Albumentations需要numpy数组输入，而torchvision transforms通常处理PIL图像或张量
处理流程差异：两种增强库的Compose机制不完全兼容
预处理顺序：需要正确处理归一化、ToTensor等操作的顺序

解决方案

方案一：完全替换为Albumentations

可以完全用Albumentations的Compose替换torchvision的transforms，示例代码如下：

import albumentations as A
from albumentations.pytorch import ToTensorV2

def create_alb_transform():
    transform = A.Compose([
        A.RandomResizedCrop(height=224, width=224),
        A.HorizontalFlip(p=0.5),
        A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
        ToTensorV2()
    ])
    return transform

方案二：混合使用两种增强库

如果需要保留部分torchvision transforms，可以创建自定义wrapper：

from torchvision import transforms
import albumentations as A
from albumentations.pytorch import ToTensorV2

class AlbumentationsWrapper:
    def __init__(self, alb_transform):
        self.alb_transform = alb_transform
        
    def __call__(self, img):
        # 将PIL图像转换为numpy数组
        img_np = np.array(img)
        # 应用Albumentations增强
        augmented = self.alb_transform(image=img_np)
        return augmented['image']

def create_mixed_transform():
    alb_transform = A.Compose([
        A.RandomBrightnessContrast(p=0.2),
        A.GaussianBlur(p=0.1),
    ])
    
    tfl = [
        AlbumentationsWrapper(alb_transform),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], 
                           std=[0.229, 0.224, 0.225])
    ]
    
    return transforms.Compose(tfl)