Google Research big_vision项目发布SigLIP 2视觉语言模型

2025-06-28 01:48:58作者：戚魁泉Nursing

Google Research旗下的big_vision项目近期发布了SigLIP 2视觉语言模型的最新进展。作为SigLIP模型的升级版本，SigLIP 2在多个方面进行了优化和改进，现已正式开放模型权重供研究社区使用。

SigLIP系列模型是Google Research开发的视觉语言预训练模型，采用对比学习框架，能够理解图像和文本之间的语义关联。与第一代SigLIP相比，SigLIP 2在模型架构和训练策略上都有显著提升，进一步提高了跨模态理解能力。

技术团队已经将SigLIP 2的模型检查点发布在公开平台上，包括不同规模的模型变体，方便研究人员根据计算资源需求选择合适的版本进行实验和应用开发。这些预训练权重可以直接用于下游任务的微调，大大降低了使用门槛。

SigLIP 2的发布标志着视觉语言模型领域的又一重要进展。该模型在零样本学习、图像检索、视觉问答等任务上表现出色，特别是在处理复杂语义关联时展现了更强的理解能力。研究团队还提供了模型演示平台，直观展示其跨模态理解性能。

对于希望使用SigLIP 2的研究人员和开发者，建议从官方渠道获取模型权重，并参考相关技术文档了解最佳实践。随着开源生态的完善，SigLIP 2有望在多媒体内容理解、智能搜索、辅助创作等领域发挥重要作用。

big_vision

Official codebase used to develop Vision Transformer, SigLIP, MLP-Mixer, LiT and more.

项目地址：https://gitcode.com/gh_mirrors/bi/big_vision

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

Google Research big_vision项目发布SigLIP 2视觉语言模型

相关内容推荐

项目优选