PyTorch Image Models 中集成 Florence-2 模型的技术解析

2025-05-04 15:39:41作者：苗圣禹Peter

The largest collection of PyTorch image encoders / backbones. Including train, eval, inference, export scripts, and pretrained weights -- ResNet, ResNeXT, EfficientNet, NFNet, Vision Transformer (ViT), MobileNetV4, MobileNet-V3 & V2, RegNet, DPN, CSPNet, Swin Transformer, MaxViT, CoAtNet, ConvNeXt, and more

项目地址：https://gitcode.com/GitHub_Trending/py/pytorch-image-models

微软近期发布了 Florence-2 模型的权重文件，这是其内部 CLIP 模型的扩展版本。作为 PyTorch Image Models (timm) 项目的重要更新，开发团队已经完成了对该模型的技术集成工作。

Florence-2 采用了创新的 DaViT 架构，基于 FLD-5B 大规模数据集训练而成。该数据集包含 1.26 亿张图像和 54 亿个视觉标注，使模型具备了多任务处理能力，包括图像描述生成、目标检测和光学字符识别等。虽然微软尚未公布该模型在图像分类任务上的基准测试结果，但其在视觉表示学习方面的潜力值得关注。

技术实现细节方面，Florence-2 默认使用 768 像素的输入分辨率和 12 的窗口大小。开发者在集成过程中发现了一些模型结构和权重映射的差异，但经过调整后模型能够正常进行微调。对于计算资源有限的场景，建议可以尝试降低输入分辨率至 256x256，并相应地将窗口大小调整为 8，这样可以减少填充操作带来的计算开销。

模型权重文件托管在 Hugging Face 平台上，用户可以通过 timm 库直接加载使用。对于希望本地部署的用户，可以先下载权重文件，然后通过特定的加载参数指定本地路径来初始化模型。这种设计既方便了云端实验，也支持了本地化部署的需求。

这一集成将为计算机视觉研究者和开发者提供一个新的强大工具，特别是在需要迁移学习的应用场景中。用户可以基于该预训练模型，针对特定下游任务进行微调，探索其在各类视觉任务中的表现潜力。

pytorch-image-models

项目地址：https://gitcode.com/GitHub_Trending/py/pytorch-image-models

登录后查看全文