在Sapiens项目中提取Vision Transformer中间层特征的方法

2025-06-09 12:34:22作者：范垣楠Rhoda

理解Sapiens项目中的特征提取需求

Sapiens是Facebook Research开发的一个基于Vision Transformer架构的计算机视觉项目。在实际应用中，我们经常需要获取神经网络中间层的特征而不仅仅是最后一层的输出特征。这些中间层特征对于可视化分析、特征融合或迁移学习等任务非常重要。

配置文件中设置中间层输出

在Sapiens项目中，提取Vision Transformer中间层特征的关键在于正确配置模型参数。具体来说，需要在模型配置文件中设置out_indices参数，这个参数决定了哪些层的特征会被输出。

例如，如果我们想要获取第3、4、5层的特征，可以在配置文件中进行如下设置：

out_indices = (3, 4, 5)

这个参数控制着模型在前向传播过程中保留哪些中间层的输出。设置后，模型不仅会返回最终的分类结果，还会返回指定中间层的特征图。

关于TorchScript模型的限制

需要注意的是，如果使用已经导出的TorchScript模型（如1B.pt2），由于这些模型在导出时已经固定了配置，无法再动态修改输出层设置。这意味着：

如果使用预编译的TorchScript模型，只能获取模型导出时预设的输出特征
要获取中间层特征，必须从原始模型开始，在导出前正确配置out_indices参数
对于已经部署的TorchScript模型，无法通过简单配置修改来获取中间特征

实际应用建议

对于需要中间层特征的应用场景，建议：

从源代码重新构建模型，而不是使用预编译的TorchScript模型
在模型初始化阶段就明确指定需要的中间层索引
考虑不同层特征的空间分辨率和语义层次的差异，选择合适的层组合
对于部署场景，如果需要中间特征，应在模型导出前完成所有配置

通过合理配置Sapiens项目的Vision Transformer模型，研究人员和开发者可以灵活地获取不同深度的视觉特征，为各种计算机视觉任务提供更丰富的特征表示。

sapiens

High-resolution models for human tasks.

项目地址：https://gitcode.com/gh_mirrors/sa/sapiens

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781