三大模型家族齐发：open_clip 2.24.0预训练模型更新全解析

2026-02-04 05:15:14作者：尤峻淳Whitney

你是否在寻找多语言图像检索解决方案？还在为模型训练成本高而烦恼？open_clip 2.24.0版本带来三大模型家族更新，一文带你掌握全部新功能！

读完本文你将获得：

多语言CLIP模型NLLB-CLIP的实战应用方法
SigLIP模型家族的性能提升数据与使用场景
CLIPA-v2模型的训练优化技巧与效果对比
快速上手新模型的代码示例与配置指南

版本概览：三大模型家族集体亮相

open_clip 2.24.0版本是2023年最重要的更新之一，新增了三大模型家族，全面提升了多语言支持能力和训练效率。本次更新主要包括：

NLLB-CLIP模型：基于NLLB文本编码器的多语言图像检索解决方案
SigLIP模型：采用Sigmoid损失函数的高效训练模型
CLIPA-v2模型：优化训练技术的高性能CLIP变体

完整更新日志请参考HISTORY.md。

NLLB-CLIP：多语言图像检索新突破

模型特点与架构

NLLB-CLIP（No Language Left Behind CLIP）是基于LiT（Locked-image Text tuning）方法开发的多语言图像检索模型。该模型冻结图像编码器，仅训练文本编码器，大幅降低了训练成本。

模型架构特点：

图像编码器：基于SigLIP模型初始化
文本编码器：采用NLLB多语言模型
训练方法：冻结图像塔，仅微调文本塔

NLLB-CLIP模型配置文件位于src/open_clip/model_configs/nllb-clip-base-siglip.json和src/open_clip/model_configs/nllb-clip-large-siglip.json。

多语言性能表现

NLLB-CLIP在多语言图像分类任务上表现出色，特别是在低资源语言上超越传统CLIP模型：

语言	NLLB-CLIP准确率	传统CLIP准确率
意大利语	56%	21%
日语	53%	1%
中文	55.7%	-

快速上手代码示例

import open_clip

# 加载NLLB-CLIP模型
model, preprocess_image, preprocess_text = open_clip.create_model_and_transforms(
    model_name="nllb-clip-siglip",
    pretrained="laion2b-s34b-b88k"
)

# 多语言文本编码示例
texts = [
    "a photo of a cat",  # 英语
    "una foto de un gato",  # 西班牙语
    "一张猫的照片",  # 中文
    "un chat photographié"  # 法语
]
text_tokens = preprocess_text(texts).to("cuda")

# 图像编码与相似度计算
image = preprocess_image(Image.open("cat.jpg")).unsqueeze(0).to("cuda")
with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text_tokens)
    logits_per_image, logits_per_text = model(image, text_tokens)

SigLIP：高效训练的新范式

模型原理与优势

SigLIP（Sigmoid Loss for Language-Image Pre-training）模型采用Sigmoid损失函数替代传统的对比损失，在训练效率和性能上都有显著提升。

主要优势：

训练效率更高，收敛速度更快
在相同数据量下性能优于传统CLIP
支持多种视觉Transformer架构

SigLIP模型配置文件已全面更新，包括多种变体：

性能对比：SigLIP vs 传统CLIP

SigLIP在ImageNet零样本分类任务上表现优异，特别是在ViT-H/14架构上达到了78.0%的准确率。

模型配置与使用

SigLIP模型支持多种视觉Transformer架构和分辨率设置，可根据需求选择合适的模型配置：

# 加载不同配置的SigLIP模型
model_names = [
    "ViT-B-16-SigLIP",
    "ViT-L-16-SigLIP2-384",
    "ViT-SO400M-14-SigLIP-378"
]

for name in model_names:
    model, _, _ = open_clip.create_model_and_transforms(
        model_name=name,
        pretrained="laion2b_s34b_b88k"
    )
    print(f"Model: {name}, Parameters: {sum(p.numel() for p in model.parameters()):,}")

CLIPA-v2：低成本高性能的典范

模型训练创新点

CLIPA-v2（Contrastive Language-Image Pre-training with Adapters）通过创新的训练技术，在控制成本的同时实现了81.1%的零样本ImageNet准确率。

主要创新点：

适配器技术降低训练参数数量
优化的数据采样策略
混合精度训练优化

CLIPA-v2的训练代码位于docs/script_examples/clipa/vit_h14/i577_t32_finetunex1.sh。

训练成本与性能对比

CLIPA-v2在仅1万美元预算下实现了81.1%的零样本ImageNet准确率，相比传统方法成本降低60%以上。

模型使用示例

# 加载CLIPA-v2模型
model, preprocess_image, preprocess_text = open_clip.create_model_and_transforms(
    model_name="ViT-H-14-CLIPA",
    pretrained="datacomp1b_s13b_b90k"
)

# 图像特征提取
image = preprocess_image(Image.open("example.jpg")).unsqueeze(0).to("cuda")
with torch.no_grad():
    image_features = model.encode_image(image)
    
# 文本特征提取
text = preprocess_text(["a photo of a dog", "a picture of a cat"]).to("cuda")
with torch.no_grad():
    text_features = model.encode_text(text)
    
# 计算相似度
similarity = (image_features @ text_features.T).softmax(dim=-1)
print(similarity)  # 输出图像与每个文本的相似度

实用工具与最佳实践

模型选择指南

根据应用场景选择合适的模型：

应用场景	推荐模型	优势
多语言图像检索	NLLB-CLIP	支持100+语言，低资源语言表现好
高效训练	SigLIP	训练速度快，收敛性好
高性能需求	CLIPA-v2	准确率高，计算成本低

常见问题解决

模型加载问题：确保安装最新版本open_clip，模型权重会自动下载

pip install --upgrade open_clip_torch

性能调优：使用int8推理降低内存占用

model = model.to(dtype=torch.float16)  # 半精度推理

训练技巧：参考docs/LOW_ACC.md解决低准确率问题

总结与未来展望

open_clip 2.24.0版本通过引入NLLB-CLIP、SigLIP和CLIPA-v2三大模型家族，全面提升了多语言支持能力、训练效率和性能表现。这些模型不仅降低了多模态模型的使用门槛，也为研究人员提供了更多创新方向。

未来版本将重点关注：

更大规模的多语言模型训练
模型压缩与移动端部署
更丰富的下游任务支持

欢迎点赞、收藏本文，关注项目更新，获取最新模型资讯！下期我们将带来"open_clip模型压缩与部署实战"，敬请期待。

更多模型详情和评估结果，请参考：

open_clip

An open source implementation of CLIP.

项目地址：https://gitcode.com/GitHub_Trending/op/open_clip

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

365

237

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

C++

111

165

三大模型家族齐发：open_clip 2.24.0预训练模型更新全解析

版本概览：三大模型家族集体亮相

NLLB-CLIP：多语言图像检索新突破

模型特点与架构

多语言性能表现

快速上手代码示例

SigLIP：高效训练的新范式

模型原理与优势

性能对比：SigLIP vs 传统CLIP

模型配置与使用

CLIPA-v2：低成本高性能的典范

模型训练创新点

训练成本与性能对比

模型使用示例

实用工具与最佳实践

模型选择指南

常见问题解决

总结与未来展望

热门内容推荐

最新内容推荐

项目优选

三大模型家族齐发：open_clip 2.24.0预训练模型更新全解析

版本概览：三大模型家族集体亮相

NLLB-CLIP：多语言图像检索新突破

模型特点与架构

多语言性能表现

快速上手代码示例

SigLIP：高效训练的新范式

模型原理与优势

性能对比：SigLIP vs 传统CLIP

模型配置与使用

CLIPA-v2：低成本高性能的典范

模型训练创新点

训练成本与性能对比

模型使用示例

实用工具与最佳实践

模型选择指南

常见问题解决

总结与未来展望

相关内容推荐

热门内容推荐

最新内容推荐

项目优选