AA-CLIP项目训练流程解析：基于适配器的CLIP模型优化方案

2025-07-07 12:32:56作者：蔡丛锟

项目概述

AA-CLIP是一个基于CLIP(Contrastive Language-Image Pretraining)模型的改进方案，通过引入文本适配器(Text Adapter)和图像适配器(Image Adapter)来优化模型在特定下游任务上的表现。该项目采用两阶段训练策略，分别优化文本和图像两个模态的适配器，使预训练的CLIP模型能够更好地适应特定领域的数据。

训练流程架构

AA-CLIP的训练过程分为两个主要阶段：

文本适配器训练阶段：优化文本编码路径，使文本特征更适合目标任务
图像适配器训练阶段：在固定文本适配器的基础上，优化图像编码路径

这种分阶段训练策略能够有效避免两个适配器同时训练时可能出现的优化冲突问题。

关键技术实现

1. 模型初始化

项目使用了两种CLIP模型实例：

clip_surgery：经过视觉路径修改的CLIP模型，用于提取图像特征
clip_model：原始CLIP模型，作为基础模型

clip_surgery = create_model(
    model_name=args.model_name,
    img_size=args.img_size,
    device=device,
    pretrained="openai",
    require_pretrained=True,
)
clip_surgery.eval()
clip_surgery.visual.DAPM_replace(DPAM_layer=args.surgery_until_layer)

2. 文本适配器训练

文本适配器训练阶段的核心目标是优化文本特征，使其更适合特定任务：

def train_text_adapter(...):
    for epoch in range(start_epoch, text_epoch):
        for input_data in tqdm(train_loader):
            # 获取文本特征
            text_embedding = get_adapted_single_class_text_embedding(
                adapted_model, dataset_name, class_name, device
            )
            
            # 获取图像特征
            _, patch_features = clip_surgery.encode_image(image, [6, 12, 18, 24])
            
            # 计算相似度并预测
            patch_preds = calculate_similarity_map(f, epoch_text_feature, img_size)
            
            # 计算损失
            loss = calculate_seg_loss(patch_preds, mask)
            orthogonal_loss = ...  # 正交约束损失
            loss += orthogonal_loss * text_norm_weight
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

关键点：

使用get_adapted_single_class_text_embedding获取适配后的文本特征
通过calculate_similarity_map计算图像patch与文本特征的相似度
添加正交约束损失(orthogonal_loss)确保文本特征的正交性

3. 图像适配器训练

图像适配器训练阶段在固定文本适配器的基础上优化图像特征：

def train_image_adapter(...):
    for epoch in range(start_epoch, image_epoch):
        for input_data in tqdm(train_loader):
            # 获取固定文本特征
            epoch_text_feature = torch.stack(
                [text_embeddings[class_name] for class_name in class_names], dim=0
            )
            
            # 获取图像特征
            patch_features, det_feature = model(image)
            
            # 计算分类损失
            cls_preds = torch.matmul(det_feature, epoch_text_feature)[:, 0]
            loss += F.cross_entropy(cls_preds, label)
            
            # 计算分割损失
            patch_preds = calculate_similarity_map(f, epoch_text_feature, img_size)
            loss += calculate_seg_loss(patch_preds, mask)
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

关键点：

使用预计算的文本特征text_embeddings
同时优化分类任务和分割任务的损失
采用多步学习率调度器(MultiStepLR)动态调整学习率

训练参数配置

项目提供了丰富的训练参数配置选项：

parser.add_argument("--model_name", type=str, default="ViT-L-14-336")
parser.add_argument("--img_size", type=int, default=518)
parser.add_argument("--surgery_until_layer", type=int, default=20)
parser.add_argument("--dataset", type=str, default="VisA")
parser.add_argument("--training_mode", type=str, default="few_shot")
parser.add_argument("--shot", type=int, default=32)
parser.add_argument("--text_epoch", type=int, default=5)
parser.add_argument("--image_epoch", type=int, default=20)
parser.add_argument("--text_lr", type=float, default=0.00001)
parser.add_argument("--image_lr", type=float, default=0.0005)