OpenCLIP项目对SigLip 2视觉语言模型的支持进展

2025-05-20 06:10:07作者：董宙帆

近日，OpenCLIP项目团队宣布已完成对Google最新发布的SigLip 2系列视觉语言模型的全面支持。这一进展为计算机视觉和自然语言处理领域的研究者提供了更多强大的预训练模型选择。

SigLip 2是Google推出的新一代视觉语言模型家族，采用了创新的Sigmoid损失函数替代传统的Softmax，在跨模态任务中展现出卓越的性能。OpenCLIP作为开源的视觉语言预训练框架，其快速集成新模型的能力一直备受社区关注。

根据项目核心开发者透露，目前已完成所有固定分辨率SigLip 2模型的测试和验证工作。这些模型在ImageNet-1k零样本分类任务上表现优异，其中：

B/16-512模型达到81.29%的top1准确率
L/16-512模型达到83.50%的top1准确率
SO/16-512模型达到84.27%的top1准确率
gopt/16-384模型表现最佳，达到84.88%的top1准确率

值得注意的是，这些评估结果是在混合精度(AMP)和bfloat16格式下获得的，与原始JAX实现的结果差异在预期范围内。开发者采用了双三次插值作为默认的图像缩放方法，这与Transformers库的实现略有不同，导致准确率存在微小差异。

对于可变分辨率的NAFLEX模型，开发者表示需要更深入的工程考虑。这类模型采用了序列打包(sequence packing)技术，能够处理不同长宽比的输入图像。然而，将这种可变分辨率处理机制整合到PyTorch训练管道中面临技术挑战，特别是如何在不显著降低训练效率的情况下，合理划分数据加载器和模型之间的职责边界。

项目团队计划在未来版本中逐步完善对可变分辨率模型的支持，而不会仅仅提供推理解决方案。目前，用户已经可以通过OpenCLIP主分支和timm库的组合来使用固定分辨率的SigLip 2模型。预计本周末将发布包含这些新特性的正式版本。

这一进展标志着OpenCLIP项目继续保持其在多模态学习领域的领先地位，为研究社区提供了更多前沿的预训练模型选择。开发者社区对SigLip 2系列模型的快速支持也展现了项目的活跃度和技术实力。

open_clip

An open source implementation of CLIP.

项目地址：https://gitcode.com/GitHub_Trending/op/open_clip

登录后查看全文