```markdown

2024-06-11 16:16:28作者：龚格成

# 使用GNN-CNN预测化合物与蛋白质相互作用的开源项目





在生物信息学和药物发现领域，准确预测化合物与蛋白质（CPI）的相互作用至关重要。本项目提供了一个基于深度学习的解决方案，利用图神经网络（GNN）对化合物进行建模，而卷积神经网络（CNN）则用于处理蛋白质序列。虽然项目开发者已指出将不再维护此项目并建议转向[量子深场模型](https://github.com/masashitsubaki/QuantumDeepField_molecule)，但该项目的历史成就和公开代码仍具有一定的研究价值。

## 项目介绍

**CPI预测GNN-CNN**是[2018年Bioinformatics论文](https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/bty535/5050020?redirectedFrom=PDF)的PyTorch实现。它通过将SMILES表示的化合物转换为2D图形结构数据，并结合蛋白质的氨基酸序列，预测两者是否能相互作用。该模型以1:1的比例提供了两个CPI数据集：人类和*C. elegans*。

## 项目技术分析

模型的核心在于GNN和CNN的集成。GNN用于学习化合物中子图（即指纹）的表示，而CNN则处理蛋白质序列。尽管这个实现比原始论文中的模型更简单，没有边向量的更新，但它仍能捕捉到分子结构的关键信息。输入为化合物的SMILES字符串和蛋白质序列，输出为二进制标签（交互或不交互）。

## 应用场景

1. **药物研发**：预测新化合物可能与哪些蛋白质发生作用，从而指导药物设计。
2. **生物学研究**：理解蛋白质功能，探索药物靶点。
3. **个性化医疗**：根据个体基因组信息预测其对特定药物的反应。

## 项目特点

1. **易用性**：只需设置好环境（如PyTorch），预处理数据和训练模型只需两条命令。
2. **自定义性**：支持使用相同格式的自定义CPI数据集进行模型训练。
3. **效率**：简化版模型减少了计算复杂度，适用于快速实验。
4. **可复现性**：提供的脚本可以重现论文中的学习曲线。

## 部署说明

1. 运行`code/preprocess_data.py`创建CPI的预处理数据。
2. 运行`code/run_training.py`训练模型。

## 结果

在人类和*C. elegans*测试集上的学习曲线显示了模型的性能稳定性和渐近收敛。

## 引用

当您使用此项目时，请引用以下文献：

@article{tsubaki2018compound, title={Compound-protein Interaction Prediction with End-to-end Learning of Neural Networks for Graphs and Sequences}, author={Tsubaki, Masashi and Tomii, Kentaro and Sese, Jun}, journal={Bioinformatics}, year={2018} }

请注意：由于项目作者已经指出GNN方法对于分子建模可能无效，并推荐使用新的量子深场模型，因此我们鼓励读者考虑最新的研究进展。

登录后查看全文

```markdown

最新内容推荐

项目优选

```markdown

相关内容推荐

最新内容推荐

项目优选