首页
/ Boltz输出文件解读:PDB/MMCIF格式与亲和力预测结果分析

Boltz输出文件解读:PDB/MMCIF格式与亲和力预测结果分析

2026-02-05 05:48:49作者:秋泉律Samson

概述

Boltz作为生物分子相互作用模型(Boltz-1 biomolecular interaction model),其输出文件包含丰富的结构信息和预测结果。本文将详细解读Boltz生成的PDB/MMCIF格式文件以及亲和力预测结果,帮助用户更好地理解和利用模型输出。

输出文件结构

Boltz的预测结果默认保存在predictions目录下,每个输入文件对应一个子目录。典型的输出文件结构如下:

out_dir/
├── predictions/
│   ├── [input_file1]/
│   │   ├── [input_file1]_model_0.cif       # MMCIF格式结构文件
│   │   ├── confidence_[input_file1]_model_0.json  # 置信度分数文件
│   │   ├── affinity_[input_file1].json     # 亲和力预测结果文件
│   │   ├── pae_[input_file1]_model_0.npz   # 预测的PAE分数
│   │   ├── pde_[input_file1]_model_0.npz   # 预测的PDE分数
│   │   └── plddt_[input_file1]_model_0.npz # 预测的pLDDT分数

结构文件格式

Boltz支持两种主要的结构输出格式:MMCIF(默认)和PDB。用户可以通过--output_format选项指定输出格式。

MMCIF格式

MMCIF(Macromolecular Crystallographic Information File)是一种灵活的、可扩展的格式,能够存储丰富的结构信息和相关元数据。Boltz生成的MMCIF文件包含以下关键信息:

  • 原子坐标和位移参数(B因子,存储pLDDT分数)
  • 链和残基信息
  • 化学组件定义
  • 结构置信度信息(如pLDDT)

MMCIF文件的写入逻辑在src/boltz/data/write/mmcif.py中实现。该模块使用modelcif库构建符合规范的MMCIF文件,并将pLDDT分数以B因子的形式嵌入到文件中。

PDB格式

PDB(Protein Data Bank)是一种广泛使用的蛋白质结构格式。Boltz生成的PDB文件包含标准的原子坐标记录(ATOM/HETATM)、连接信息(CONECT)以及链终止记录(TER)。

PDB文件的写入逻辑在src/boltz/data/write/pdb.py中实现。与MMCIF类似,pLDDT分数也存储在B因子字段中。

置信度文件

置信度文件(confidence_*.json)包含多种结构置信度指标,如:

  • confidence_score: 综合置信度分数(用于排序预测结果)
  • ptm: 预测的TM分数
  • iptm: 界面加权的TM分数
  • complex_plddt: 复合物的平均pLDDT分数
  • chains_ptm: 各链的TM分数
  • pair_chains_iptm: 链间界面TM分数

这些指标有助于评估预测结构的可靠性和质量。

亲和力预测文件

当在输入YAML文件中指定properties: - affinity:时,Boltz会生成亲和力预测文件(affinity_*.json)。该文件包含以下关键指标:

  • affinity_pred_value: 预测的结合亲和力(log10(IC50))
  • affinity_probability_binary: 配体作为结合剂的概率

亲和力预测的实现细节可参考src/boltz/data/crop/affinity.py中的AffinityCropper类,该类负责为亲和力预测准备输入数据。

PDB/MMCIF文件解析

原子坐标记录

在PDB和MMCIF文件中,原子坐标是最核心的信息。以PDB格式为例,典型的ATOM记录如下:

ATOM   1000  N   ALA A  10     -10.000  20.000  30.000  1.00  90.00           N  

这里:

  • 第7-11列:原子序号
  • 第13-16列:原子名称
  • 第17列:替代位置指示符
  • 第18-20列:残基名称
  • 第22列:链标识符
  • 第23-26列:残基序号
  • 第31-38列:X坐标
  • 第39-46列:Y坐标
  • 第47-54列:Z坐标
  • 第55-60列:占有率
  • 第61-66列:温度因子(B因子),在Boltz输出中存储pLDDT分数

pLDDT分数解读

pLDDT(predicted Local Distance Difference Test)是一种每残基的局部结构置信度分数,范围从0到100。较高的pLDDT值(如>90)表示该区域的结构预测较为可靠,而较低的值(如<50)表示该区域的结构不确定性较高。

在Boltz输出的PDB/MMCIF文件中,pLDDT分数存储在温度因子(B因子)字段中。可以通过分析这一字段来评估结构各部分的可靠性。

pLDDT分数分布示例

上图展示了pLDDT分数与实验结构一致性的关系,进一步验证了pLDDT作为结构置信度指标的有效性。

亲和力预测结果分析

结合亲和力(affinity_pred_value)

affinity_pred_value表示预测的结合亲和力,单位为log10(IC50)。这个值与IC50(半数抑制浓度)的关系如下:

  • IC50 = 10^y μM,其中y是affinity_pred_value
  • 例如:y = -3 对应 IC50 = 10^-3 μM = 1 nM(强结合)
  • y = 0 对应 IC50 = 1 μM(中等结合)
  • y = 2 对应 IC50 = 100 μM(弱结合)

可以使用公式(6 - y) * 1.364affinity_pred_value转换为pIC50(单位:kcal/mol)。

结合概率(affinity_probability_binary)

affinity_probability_binary表示配体作为结合剂的概率,范围从0到1。较高的值(如>0.8)表明配体很可能是一个有效的结合剂,而较低的值(如<0.2)则表明配体可能是一个非结合剂(诱饵)。

亲和力预测的实现

Boltz的亲和力预测模块在src/boltz/data/crop/affinity.py中实现。AffinityCropper类负责准备结合口袋区域的数据,为亲和力预测模型提供输入。

该模块采用了一种基于距离的裁剪策略,优先选择靠近配体的蛋白质残基,以捕捉关键的结合相互作用。

实际案例分析

输出文件解读示例

假设我们使用以下命令运行Boltz预测:

boltz predict examples/ligand.yaml --output_format pdb --use_potentials

预测完成后,我们得到以下关键文件:

  1. predictions/ligand/ligand_model_0.pdb: PDB格式的结构文件
  2. predictions/ligand/confidence_ligand_model_0.json: 置信度文件
  3. predictions/ligand/affinity_ligand.json: 亲和力预测文件

结构文件分析

在PDB文件中,我们可以查看配体结合口袋区域的原子坐标和B因子(pLDDT)值:

ATOM    100  N   LYS A  45     -15.234  22.345  30.123  1.00  95.67           N  
ATOM    101  CA  LYS A  45     -14.876  21.001  30.567  1.00  94.23           C  
...
HETATM 2000  C1  LIG B   1      -20.123  25.678  32.890  1.00  88.45           C  

高pLDDT值(如95.67)表明这些残基的结构预测较为可靠。

置信度分析

置信度文件中的关键值:

{
  "confidence_score": 0.876,
  "ptm": 0.892,
  "iptm": 0.854,
  "complex_plddt": 0.887,
  "ligand_iptm": 0.832
}

ligand_iptm值(0.832)表明配体-蛋白质界面的预测质量较好,支持该结合模式的可靠性。

亲和力分析

亲和力预测文件中的关键值:

{
  "affinity_pred_value": -1.5,
  "affinity_probability_binary": 0.92
}

affinity_pred_value为-1.5,对应IC50约为0.03 μM(30 nM),表明较强的结合亲和力。affinity_probability_binary为0.92,表明配体极有可能是一个有效的结合剂。

可视化分析

Boltz提供了一些可视化工具来帮助分析预测结果。例如,docs/pearson_plot.png展示了预测pLDDT与实验数据的相关性,验证了模型的可靠性。

pLDDT相关性分析

此外,docs/plot_test_boltz2.png展示了Boltz-2模型在测试集上的性能评估结果,进一步验证了模型的准确性。

Boltz-2模型测试性能

总结与最佳实践

关键指标解读

  • 结构质量评估:优先关注confidence_scorecomplex_plddtiptm
  • 结合亲和力affinity_pred_value越低(越负),结合越强
  • 结合可能性affinity_probability_binary越高,配体越可能是结合剂

结果可靠性判断

  • 高pLDDT值(>90)区域的结构预测较为可靠
  • iptmligand_iptm值表明界面预测质量好
  • 结合亲和力预测在配体大小适中(<56个重原子)时更为可靠

高级分析建议

  1. 结合结构可视化工具(如PyMOL)分析结合模式
  2. 比较多个预测模型(--diffusion_samples > 1)的一致性
  3. 结合PAE(预测的原子误差)分析结构柔性区域

通过综合运用这些分析方法,用户可以更全面地理解Boltz的预测结果,并将其应用于药物发现、蛋白质工程等研究领域。

更多详细信息,请参考官方文档:docs/prediction.md

登录后查看全文
热门项目推荐
相关项目推荐