PyTorch Image Models 项目新增 InternViT 视觉骨干网络支持分析

2025-05-04 23:13:01作者：卓艾滢Kingsley

**pytorch-image-models**：这是一款强大的PyTorch库，专为图像识别领域设计，集成了丰富的先进模型与特性。它支持高效的训练和推断，包括最新的ViT变种、MobileNetV4及其混合版本，还有对CLIP模型的广泛支持。此库强调灵活性与性能，让研究人员和开发者能够轻松实验不同的架构，并利用预训练权重加速应用开发。通过持续更新和优化，如增加了注意力提取功能、改进了特征提取支持和设备兼容性，确保了在各种规模的项目中都能发挥出色表现。现在，通过Hugging Face Hub获取模型权重，更便捷地连接到最新研究。无论是深度学习新手还是专家，**pytorch-image-models**都是构建和探索先进视觉模型的强大工具箱。

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-image-models

近期 PyTorch Image Models (timm) 项目社区针对是否集成 InternViT 系列视觉Transformer模型进行了深入讨论。作为当前计算机视觉领域的重要基础架构，InternViT 的加入将为开发者提供更多选择。

InternViT 是由 OpenGVLab 团队开发的视觉Transformer架构，其核心特点包括：

采用标准 ViT 结构设计，包含 300M 参数量版本（InternViT-300M）和 6B 参数量版本
通过知识蒸馏技术从 6B 超大模型获得 300M 轻量版本
支持 LayerNorm 和 RMSNorm 两种归一化方案
在大规模视觉数据上预训练，具备优秀的迁移学习能力

技术实现方面，InternViT 保持了标准 ViT 的核心架构：

基于 patch 的图像分块嵌入
多头自注意力机制
前馈神经网络模块
可选的归一化层配置

值得注意的是，虽然 InternViT 在构建视觉语言模型(VLM)时采用了分块处理(tiling)技术，但这一特性属于 VLM 应用层的实现，并不影响其作为通用视觉骨干网络的功能。该架构在图像分类、目标检测等下游任务中表现出色，特别是在图像到序列任务（如OCR）中展现了显著优势。

对于开发者而言，在 timm 中集成 InternViT 意味着可以：

直接加载预训练权重进行迁移学习
利用 timm 的统一接口进行模型训练和推理
与其他视觉Transformer架构进行公平对比
快速构建基于 InternViT 的各类视觉应用

项目维护者经过评估确认，InternViT-300M 的标准 ViT 结构可以很好地融入 timm 现有框架，而更大规模的 6B 版本由于参数量巨大，可能需要特殊的分布式训练策略支持。这一集成将丰富 timm 的模型库，为计算机视觉研究和应用开发提供更多可能性。

pytorch-image-models

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-image-models

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781