首页
/ MGSSL 项目使用教程

MGSSL 项目使用教程

2024-09-13 23:46:47作者:翟江哲Frasier

1. 项目介绍

MGSSL(Motif-based Graph Self-Supervised Learning)是一个基于图神经网络(GNN)的自监督学习框架,专门用于分子属性预测。该项目在 NeurIPS'21 会议上发表,旨在通过引入一种新颖的自监督图生成框架来提升 GNN 在分子属性预测任务中的表现。MGSSL 通过提取分子图中的子图(motif)并进行自监督预训练,从而在下游任务中实现更好的性能。

2. 项目快速启动

2.1 环境准备

首先,确保你的环境中安装了以下依赖:

  • PyTorch 1.8.1
  • torch-geometric 1.7.0
  • rdkit 2020.09.1
  • tqdm 4.31.1
  • tensorboardx 1.6

你可以通过以下命令安装这些依赖:

pip install torch==1.8.1 torch-geometric==1.7.0 rdkit==2020.09.1 tqdm==4.31.1 tensorboardx==1.6

2.2 克隆项目

使用以下命令克隆 MGSSL 项目到本地:

git clone https://github.com/zaixizhang/MGSSL.git
cd MGSSL

2.3 预训练模型

进入 motif_based_pretrain 目录,运行以下命令进行模型预训练:

cd motif_based_pretrain
python pretrain_motif.py

2.4 模型评估

预训练完成后,进入 finetune 目录,运行以下命令进行模型评估:

cd ../finetune
python finetune.py

3. 应用案例和最佳实践

3.1 分子属性预测

MGSSL 主要应用于分子属性预测任务。通过预训练模型,可以有效地捕捉分子图中的子图信息,从而在下游任务中实现更高的准确性。例如,在药物发现领域,MGSSL 可以用于预测分子的毒性、溶解度等属性。

3.2 最佳实践

  • 数据准备:确保数据集符合项目要求,特别是分子图的格式。
  • 超参数调优:根据具体任务调整预训练和微调的超参数,以获得最佳性能。
  • 模型保存与加载:在训练过程中保存最佳模型,并在评估时加载该模型。

4. 典型生态项目

4.1 PyTorch Geometric

PyTorch Geometric 是一个基于 PyTorch 的几何深度学习扩展库,提供了丰富的图神经网络模型和工具。MGSSL 依赖于 PyTorch Geometric 进行图数据的处理和模型构建。

4.2 RDKit

RDKit 是一个开源的化学信息学库,用于处理化学分子数据。MGSSL 使用 RDKit 进行分子图的生成和处理。

4.3 TensorBoardX

TensorBoardX 是一个用于记录和可视化训练过程的工具,MGSSL 使用它来监控模型的训练进度和性能。

通过以上模块的介绍和实践,你可以快速上手并应用 MGSSL 项目进行分子属性预测任务。

登录后查看全文
热门项目推荐