【亲测免费】 RDKit 开源化学信息学软件教程

2026-01-16 10:34:59作者：何举烈Damon

1. 项目介绍

RDKit 是一个用于化学信息学和机器学习的开源软件库，由C++开发，并提供了Python接口。该项目采用BSD许可，旨在为企业和个人提供友好的开源环境进行化学数据处理。核心功能包括分子结构处理（2D和3D），描述符计算，指纹生成，以及用于机器学习的特征提取。此外，它还支持PostgreSQL数据库中的子结构和相似性搜索，以及KNIME的工作流节点。

2. 项目快速启动

安装RDKit

在Python环境中安装RDKit可以通过pip完成：

pip install rdkit

运行示例代码

下面是一段简单的RDKit Python代码，用于加载mol文件并打印其SMILES表示：

from rdkit import Chem
from rdkit.Chem import Draw

# 加载Mol文件
mol = Chem.MolFromMolFile('example.mol')

# 打印SMILES
print(Chem.MolToSmiles(mol))

# 绘制分子
Draw.MolsToGridImage([mol])

确保你的工作目录中有一个名为 example.mol 的Mol文件，代码将读取该文件并显示对应的SMILES字符串和分子图像。

3. 应用案例和最佳实践

3.1 分子相似性搜索

以下示例展示如何计算两个分子之间的Tanimoto相似度：

from rdkit import DataStructs
from rdkit.Chem importDescriptors, MolFromSmiles

m1 = MolFromSmiles('CCO')
m2 = MolFromSmiles('CCN')

# 计算MACCS指纹
f1 = Descriptors.MACCSKeys(m1)
f2 = Descriptors.MACCSKeys(m2)

# 计算Tanimoto相似度
similarity = DataStructs.TanimotoSimilarity(f1, f2)
print(f'Tanimoto Similarity: {similarity}')

3.2 分子分类

利用RDKit构建基于分子指纹的分类模型：

import pandas as pd
from sklearn.model_selection import train_test_split
from rdkit.Chem importAllChem
from rdkit.Chem.Fingerprints import FingerprintMols
from sklearn.svm import SVC

# 假设df是包含SMILES和标签的数据框
df['Mol'] = df['SMILES'].apply(MolFromSmiles)

# 计算指纹
fps = [FingerprintMols.GetMorganFingerprintAsBitVect(x, 2) for _, x in df[['Mol']].iterrows()]

# 转换为DataFrame，以便与标签合并
fps_df = pd.DataFrame(list(fps), columns=['fp'])
fps_df.index = df.index

# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(fps_df, df['Label'], test_size=0.2, random_state=42)

# 使用SVM进行分类
clf = SVC(kernel='linear', probability=True)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

4. 典型生态项目

Conda 包管理器提供了RDKit的预编译包，可以方便地通过conda命令安装。
PostgreSQL 中的化学数据库扩展，允许进行化学结构查询。
KNIME 工作流程平台，RDKit提供了化学节点以进行分析和可视化。
Jupyter Notebook 和JupyterLab 可结合RDKit进行交互式数据分析和结果可视化。

以上就是RDKit的基本介绍、快速启动步骤、应用实例及相关的生态系统项目。更多详细信息和高级用法，请参考官方文档和社区资源。

rdkit

The official sources for the RDKit library

项目地址：https://gitcode.com/gh_mirrors/rd/rdkit

登录后查看全文

【亲测免费】 RDKit 开源化学信息学软件教程

1. 项目介绍

2. 项目快速启动

安装RDKit

运行示例代码

3. 应用案例和最佳实践

3.1 分子相似性搜索

3.2 分子分类

4. 典型生态项目

热门内容推荐

最新内容推荐

项目优选

【亲测免费】 RDKit 开源化学信息学软件教程

1. 项目介绍

2. 项目快速启动

安装RDKit

运行示例代码

3. 应用案例和最佳实践

3.1 分子相似性搜索

3.2 分子分类

4. 典型生态项目

相关内容推荐

热门内容推荐

最新内容推荐

项目优选