首页
/ 感知模型库:项目介绍与使用指南

感知模型库:项目介绍与使用指南

2025-04-18 14:13:46作者:管翌锬

1. 项目介绍

感知模型库(Perception Models)是一个用户友好的代码库,旨在支持感知语言模型(Perception Language Model, PLM)和感知编码器(Perception Encoder, PE)的训练、推理和评估。该库设计为模块化,便于扩展和实验。

感知编码器(PE)是一系列用于视觉中心任务和视觉-语言任务的最新视觉编码器。而感知语言模型(PLM)则是一个开放且可完全复制的模型家族,旨在促进视觉语言模型(VLM)的研究。

2. 项目快速启动

环境准备

首先,您需要克隆项目仓库并创建一个虚拟环境:

git clone https://github.com/facebookresearch/perception_models.git
cd perception_models
conda create --name perception_models python=3.12
conda activate perception_models

安装依赖

安装PyTorch和相关依赖:

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers --index-url https://download.pytorch.org/whl/cu124
conda install ffmpeg -c conda-forge
pip install torchcodec==0.1 --index-url=https://download.pytorch.org/whl/cu124
pip install -e .

以上命令将安装一个可编辑的仓库版本,允许您在不重新安装包的情况下对代码进行修改。

3. 应用案例和最佳实践

感知编码器(PE)

关于感知编码器的详细信息,包括推理、评估和下游任务,请参考项目文件夹中的 apps/pe/README.md 文件。

感知语言模型(PLM)

关于感知语言模型的训练、评估和推理,请参考项目文件夹中的 apps/plm/README.md 文件。

4. 典型生态项目

目前,感知模型库的生态系统包括以下项目:

  • apps/pe/:包含感知编码器的应用代码。
  • apps/plm/:包含感知语言模型的应用代码。

这些项目提供了使用感知模型库的基础,并可以作为进一步开发和研究的基础。

登录后查看全文
热门项目推荐
相关项目推荐