ProTrek 使用与启动教程

2025-04-18 11:41:39作者：董宙帆

1. 项目介绍

ProTrek 是一个基于对比学习的三模态蛋白质语言模型，它联合建模蛋白质序列、结构和功能（SSF）。通过三种核心对齐策略：使用结构作为氨基酸序列的监督信号，反之亦然；序列与功能之间的相互监督；结构与方法之间的相互监督，ProTrek 能够在潜在空间中紧密关联 SSF，将真实样本对（序列-结构、序列-功能、结构-功能）更接近地聚集在一起，同时将负样本推得更远。

ProTrek 在序列-功能检索和功能-序列检索上取得了超过 30 倍和 60 倍的改进，比 Foldseek 和 MMseqs2 在蛋白质-蛋白质搜索中快 100 倍，并在 11 个下游预测任务中的 9 个任务上超过了 ESM-2。

2. 项目快速启动

环境安装

首先，创建一个虚拟环境：

conda create -n protrek python=3.10 --yes
conda activate protrek

然后，克隆仓库并安装所需的包：

bash environment.sh

下载模型权重

ProTrek 提供了不同大小（35M 和 650M）的预训练模型。以下是下载预训练模型权重的示例：

huggingface-cli download westlake-repl/ProTrek_650M_UniRef50 \
--repo-type model \
--local-dir weights/ProTrek_650M_UniRef50

注意：如果您无法访问 huggingface 网站，可以通过设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 来尝试连接镜像站点。

下载 Foldseek 二进制文件

为了正确运行示例并在本地部署您的演示，请首先从提供的链接下载 Foldseek 二进制文件，并将其放入 bin 文件夹中。然后为二进制文件添加执行权限：

chmod +x bin/foldseek

获取嵌入和计算相似度分数

以下是一个如何使用预训练的 ProTrek 模型获取嵌入和计算相似度分数的示例：

import torch
from model.ProTrek.protrek_trimodal_model import ProTrekTrimodalModel
from utils.foldseek_util import get_struc_seq

# 加载模型
config = {
    "protein_config": "weights/ProTrek_650M_UniRef50/esm2_t33_650M_UR50D",
    "text_config": "weights/ProTrek_650M_UniRef50/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext",
    "structure_config": "weights/ProTrek_650M_UniRef50/foldseek_t30_150M",
    "load_protein_pretrained": False,
    "load_text_pretrained": False,
    "from_checkpoint": "weights/ProTrek_650M_UniRef50/ProTrek_650M_UniRef50.pt"
}
device = "cuda"
model = ProTrekTrimodalModel(**config).eval().to(device)

# 加载蛋白质和文本
pdb_path = "example/8ac8.cif"
seqs = get_struc_seq("bin/foldseek", pdb_path, ["A"])["A"]
aa_seq = seqs[0]
foldseek_seq = seqs[1].lower()
text = "复制起始子在单体形式下，以及在二聚体形式下为自抑制因子。"

with torch.no_grad():
    # 获取蛋白质序列嵌入
    seq_embedding = model.get_protein_repr([aa_seq])
    print("蛋白质序列嵌入形状:", seq_embedding.shape)
    # 获取蛋白质结构嵌入
    struc_embedding = model.get_structure_repr([foldseek_seq])
    print("蛋白质结构嵌入形状:", struc_embedding.shape)
    # 获取文本嵌入
    text_embedding = model.get_text_repr([text])
    print("文本嵌入形状:", text_embedding.shape)
    # 计算蛋白质序列与结构之间的相似度分数
    seq_struc_score = seq_embedding @ struc_embedding.T / model.temperature
    print("蛋白质序列与结构之间的相似度分数:", seq_struc_score.item())
    # 计算蛋白质序列与文本之间的相似度分数
    seq_text_score = seq_embedding @ text_embedding.T / model.temperature
    print("蛋白质序列与文本之间的相似度分数:", seq_text_score.item())
    # 计算蛋白质结构与文本之间的相似度分数
    struc_text_score = struc_embedding @ text_embedding.T / model.temperature
    print("蛋白质结构与文本之间的相似度分数:", struc_text_score.item())