深度学习在小分子质谱分析中的应用

2024-09-26 20:36:03作者：盛欣凯Ernestine

本教程将引导您了解并使用deep-molecular-massspec这一开源项目，它利用深度学习技术预测有机分子的电子电离质谱图。该项目通过模拟实验化学家当前使用的库匹配任务来评估性能表现。

1. 项目目录结构及介绍

deep-molecular-massspec/
|-- examples/                # 示例文件夹，包括用于测试的数据文件
|   |-- pentachlorobenzene.sdf
|-- testdata/               # 测试数据集
|-- training_splits/        # 训练、验证和测试集的分子数据划分
|-- .gitignore              # Git忽略文件列表
|-- CONTRIBUTING.md         # 贡献指南
|-- LICENSE                 # 许可证文件（Apache-2.0）
|-- Model_Retrain_Quickstart.md # 重新训练模型快速入门指南
|-- README.md               # 项目简介和快速操作指南
|-- __init__.py             # 初始化脚本
|-- dataset_setup_constants.py # 数据集设置常量
|-- ...                     # 其他Python源代码文件，涉及模型训练、预测等核心逻辑

examples/ 包含了示例分子文件，如.sdf格式的分子结构。
testdata/ 和 training_splits/ 提供了用于训练和测试的数据分割。
主要的脚本和模块分布在根目录下，如make_spectra_prediction.py用于生成预测谱图。

2. 项目的启动文件介绍

预测模型的运行

主要的启动文件是make_spectra_prediction.py。使用这个脚本可以基于已训练好的模型对新的分子结构进行质谱预测。运行前需要下载预训练权重，并指定输入分子文件路径、输出路径以及权重存放目录。例如：

$ MODEL_WEIGHTS_DIR=/path/to/your/model_weights
$ mkdir -p $MODEL_WEIGHTS_DIR
$ curl -o $MODEL_WEIGHTS_DIR/massspec_weights.zip "https://storage.googleapis.com/deep-molecular-massspec/massspec_weights/massspec_weights.zip"
$ unzip $MODEL_WEIGHTS_DIR/massspec_weights.zip -d $MODEL_WEIGHTS_DIR
$ python make_spectra_prediction.py \
    --input_file=examples/pentachlorobenzene.sdf \
    --output_file=/tmp/annotated.sdf \
    --weights_dir=$MODEL_WEIGHTS_DIR/massspec_weights

3. 项目的配置文件介绍

此项目并未明确提供一个传统的配置文件，如.yaml或.ini形式。然而，重要配置通常是通过命令行参数传递给脚本的，例如在上述例子中，通过--input_file, --output_file, 和 --weights_dir 参数来指定必要的信息。对于更为复杂的配置需求，比如调整模型训练时的超参数，可能需要直接修改Python源码中的默认值或通过环境变量实现。

项目中的关键配置大多位于各个功能脚本内部，比如dataset_setup_constants.py中可能包含了数据处理的静态配置项。因此，在深入使用或扩展项目时，理解这些脚本中的常量定义和参数设定至关重要。

通过遵循以上指导，您可以顺利地开始利用deep-molecular-massspec进行小分子的质谱预测工作。确保您的开发环境中已经正确安装所有必需的依赖包，如TensorFlow、RDKit等，以保证项目正常运行。

登录后查看全文