Boltz输出文件解读：PDB/MMCIF格式与亲和力预测结果分析

2026-02-05 05:48:49作者：秋泉律Samson

概述

Boltz作为生物分子相互作用模型（Boltz-1 biomolecular interaction model），其输出文件包含丰富的结构信息和预测结果。本文将详细解读Boltz生成的PDB/MMCIF格式文件以及亲和力预测结果，帮助用户更好地理解和利用模型输出。

输出文件结构

Boltz的预测结果默认保存在predictions目录下，每个输入文件对应一个子目录。典型的输出文件结构如下：

out_dir/
├── predictions/
│   ├── [input_file1]/
│   │   ├── [input_file1]_model_0.cif       # MMCIF格式结构文件
│   │   ├── confidence_[input_file1]_model_0.json  # 置信度分数文件
│   │   ├── affinity_[input_file1].json     # 亲和力预测结果文件
│   │   ├── pae_[input_file1]_model_0.npz   # 预测的PAE分数
│   │   ├── pde_[input_file1]_model_0.npz   # 预测的PDE分数
│   │   └── plddt_[input_file1]_model_0.npz # 预测的pLDDT分数

结构文件格式

Boltz支持两种主要的结构输出格式：MMCIF（默认）和PDB。用户可以通过--output_format选项指定输出格式。

MMCIF格式

MMCIF（Macromolecular Crystallographic Information File）是一种灵活的、可扩展的格式，能够存储丰富的结构信息和相关元数据。Boltz生成的MMCIF文件包含以下关键信息：

原子坐标和位移参数（B因子，存储pLDDT分数）
链和残基信息
化学组件定义
结构置信度信息（如pLDDT）

MMCIF文件的写入逻辑在src/boltz/data/write/mmcif.py中实现。该模块使用modelcif库构建符合规范的MMCIF文件，并将pLDDT分数以B因子的形式嵌入到文件中。

PDB格式

PDB（Protein Data Bank）是一种广泛使用的蛋白质结构格式。Boltz生成的PDB文件包含标准的原子坐标记录（ATOM/HETATM）、连接信息（CONECT）以及链终止记录（TER）。

PDB文件的写入逻辑在src/boltz/data/write/pdb.py中实现。与MMCIF类似，pLDDT分数也存储在B因子字段中。

置信度文件

置信度文件（confidence_*.json）包含多种结构置信度指标，如：

confidence_score: 综合置信度分数（用于排序预测结果）
ptm: 预测的TM分数
iptm: 界面加权的TM分数
complex_plddt: 复合物的平均pLDDT分数
chains_ptm: 各链的TM分数
pair_chains_iptm: 链间界面TM分数

这些指标有助于评估预测结构的可靠性和质量。

亲和力预测文件

当在输入YAML文件中指定properties: - affinity:时，Boltz会生成亲和力预测文件（affinity_*.json）。该文件包含以下关键指标：

affinity_pred_value: 预测的结合亲和力（log10(IC50)）
affinity_probability_binary: 配体作为结合剂的概率

亲和力预测的实现细节可参考src/boltz/data/crop/affinity.py中的AffinityCropper类，该类负责为亲和力预测准备输入数据。

PDB/MMCIF文件解析

原子坐标记录

在PDB和MMCIF文件中，原子坐标是最核心的信息。以PDB格式为例，典型的ATOM记录如下：

ATOM   1000  N   ALA A  10     -10.000  20.000  30.000  1.00  90.00           N

这里：

第7-11列：原子序号
第13-16列：原子名称
第17列：替代位置指示符
第18-20列：残基名称
第22列：链标识符
第23-26列：残基序号
第31-38列：X坐标
第39-46列：Y坐标
第47-54列：Z坐标
第55-60列：占有率
第61-66列：温度因子（B因子），在Boltz输出中存储pLDDT分数

pLDDT分数解读

pLDDT（predicted Local Distance Difference Test）是一种每残基的局部结构置信度分数，范围从0到100。较高的pLDDT值（如>90）表示该区域的结构预测较为可靠，而较低的值（如<50）表示该区域的结构不确定性较高。

在Boltz输出的PDB/MMCIF文件中，pLDDT分数存储在温度因子（B因子）字段中。可以通过分析这一字段来评估结构各部分的可靠性。

上图展示了pLDDT分数与实验结构一致性的关系，进一步验证了pLDDT作为结构置信度指标的有效性。

亲和力预测结果分析

结合亲和力（affinity_pred_value）

affinity_pred_value表示预测的结合亲和力，单位为log10(IC50)。这个值与IC50（半数抑制浓度）的关系如下：

IC50 = 10^y μM，其中y是affinity_pred_value
例如：y = -3 对应 IC50 = 10^-3 μM = 1 nM（强结合）
y = 0 对应 IC50 = 1 μM（中等结合）
y = 2 对应 IC50 = 100 μM（弱结合）

可以使用公式(6 - y) * 1.364将affinity_pred_value转换为pIC50（单位：kcal/mol）。

结合概率（affinity_probability_binary）

affinity_probability_binary表示配体作为结合剂的概率，范围从0到1。较高的值（如>0.8）表明配体很可能是一个有效的结合剂，而较低的值（如<0.2）则表明配体可能是一个非结合剂（诱饵）。

亲和力预测的实现

Boltz的亲和力预测模块在src/boltz/data/crop/affinity.py中实现。AffinityCropper类负责准备结合口袋区域的数据，为亲和力预测模型提供输入。

该模块采用了一种基于距离的裁剪策略，优先选择靠近配体的蛋白质残基，以捕捉关键的结合相互作用。

实际案例分析

输出文件解读示例

假设我们使用以下命令运行Boltz预测：

boltz predict examples/ligand.yaml --output_format pdb --use_potentials

预测完成后，我们得到以下关键文件：

predictions/ligand/ligand_model_0.pdb: PDB格式的结构文件
predictions/ligand/confidence_ligand_model_0.json: 置信度文件
predictions/ligand/affinity_ligand.json: 亲和力预测文件

结构文件分析

在PDB文件中，我们可以查看配体结合口袋区域的原子坐标和B因子（pLDDT）值：

ATOM    100  N   LYS A  45     -15.234  22.345  30.123  1.00  95.67           N  
ATOM    101  CA  LYS A  45     -14.876  21.001  30.567  1.00  94.23           C  
...
HETATM 2000  C1  LIG B   1      -20.123  25.678  32.890  1.00  88.45           C

高pLDDT值（如95.67）表明这些残基的结构预测较为可靠。

置信度分析

置信度文件中的关键值：

{
  "confidence_score": 0.876,
  "ptm": 0.892,
  "iptm": 0.854,
  "complex_plddt": 0.887,
  "ligand_iptm": 0.832
}

高ligand_iptm值（0.832）表明配体-蛋白质界面的预测质量较好，支持该结合模式的可靠性。

亲和力分析

亲和力预测文件中的关键值：

{
  "affinity_pred_value": -1.5,
  "affinity_probability_binary": 0.92
}

affinity_pred_value为-1.5，对应IC50约为0.03 μM（30 nM），表明较强的结合亲和力。affinity_probability_binary为0.92，表明配体极有可能是一个有效的结合剂。

可视化分析

Boltz提供了一些可视化工具来帮助分析预测结果。例如，docs/pearson_plot.png展示了预测pLDDT与实验数据的相关性，验证了模型的可靠性。

此外，docs/plot_test_boltz2.png展示了Boltz-2模型在测试集上的性能评估结果，进一步验证了模型的准确性。

总结与最佳实践

关键指标解读

结构质量评估：优先关注confidence_score、complex_plddt和iptm
结合亲和力：affinity_pred_value越低（越负），结合越强
结合可能性：affinity_probability_binary越高，配体越可能是结合剂

结果可靠性判断

高pLDDT值（>90）区域的结构预测较为可靠
高iptm和ligand_iptm值表明界面预测质量好
结合亲和力预测在配体大小适中（<56个重原子）时更为可靠

高级分析建议

结合结构可视化工具（如PyMOL）分析结合模式
比较多个预测模型（--diffusion_samples > 1）的一致性
结合PAE（预测的原子误差）分析结构柔性区域

通过综合运用这些分析方法，用户可以更全面地理解Boltz的预测结果，并将其应用于药物发现、蛋白质工程等研究领域。

更多详细信息，请参考官方文档：docs/prediction.md

boltz

Official repository for the Boltz-1 biomolecular interaction model

项目地址：https://gitcode.com/GitHub_Trending/bo/boltz

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Dora SSR 是一款跨平台的游戏引擎，提供前沿或是具有探索性的游戏开发功能。它内置了Web IDE，提供了可以轻轻松松通过浏览器访问的快捷游戏开发环境，特别适合于在新兴市场如国产游戏掌机和其它移动电子设备上直接进行游戏开发和编程学习。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.36 K

772

Boltz输出文件解读：PDB/MMCIF格式与亲和力预测结果分析

概述

输出文件结构

结构文件格式

MMCIF格式

PDB格式

置信度文件

亲和力预测文件

PDB/MMCIF文件解析

原子坐标记录

pLDDT分数解读

亲和力预测结果分析

结合亲和力（affinity_pred_value）

结合概率（affinity_probability_binary）

亲和力预测的实现

实际案例分析

输出文件解读示例

结构文件分析

置信度分析

亲和力分析

可视化分析

总结与最佳实践

关键指标解读

结果可靠性判断

高级分析建议

热门内容推荐

最新内容推荐

项目优选

Boltz输出文件解读：PDB/MMCIF格式与亲和力预测结果分析

概述

输出文件结构

结构文件格式

MMCIF格式

PDB格式

置信度文件

亲和力预测文件

PDB/MMCIF文件解析

原子坐标记录

pLDDT分数解读

亲和力预测结果分析

结合亲和力（affinity_pred_value）

结合概率（affinity_probability_binary）

亲和力预测的实现

实际案例分析

输出文件解读示例

结构文件分析

置信度分析

亲和力分析

可视化分析

总结与最佳实践

关键指标解读

结果可靠性判断

高级分析建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选