Boltz输出文件解读:PDB/MMCIF格式与亲和力预测结果分析
概述
Boltz作为生物分子相互作用模型(Boltz-1 biomolecular interaction model),其输出文件包含丰富的结构信息和预测结果。本文将详细解读Boltz生成的PDB/MMCIF格式文件以及亲和力预测结果,帮助用户更好地理解和利用模型输出。
输出文件结构
Boltz的预测结果默认保存在predictions目录下,每个输入文件对应一个子目录。典型的输出文件结构如下:
out_dir/
├── predictions/
│ ├── [input_file1]/
│ │ ├── [input_file1]_model_0.cif # MMCIF格式结构文件
│ │ ├── confidence_[input_file1]_model_0.json # 置信度分数文件
│ │ ├── affinity_[input_file1].json # 亲和力预测结果文件
│ │ ├── pae_[input_file1]_model_0.npz # 预测的PAE分数
│ │ ├── pde_[input_file1]_model_0.npz # 预测的PDE分数
│ │ └── plddt_[input_file1]_model_0.npz # 预测的pLDDT分数
结构文件格式
Boltz支持两种主要的结构输出格式:MMCIF(默认)和PDB。用户可以通过--output_format选项指定输出格式。
MMCIF格式
MMCIF(Macromolecular Crystallographic Information File)是一种灵活的、可扩展的格式,能够存储丰富的结构信息和相关元数据。Boltz生成的MMCIF文件包含以下关键信息:
- 原子坐标和位移参数(B因子,存储pLDDT分数)
- 链和残基信息
- 化学组件定义
- 结构置信度信息(如pLDDT)
MMCIF文件的写入逻辑在src/boltz/data/write/mmcif.py中实现。该模块使用modelcif库构建符合规范的MMCIF文件,并将pLDDT分数以B因子的形式嵌入到文件中。
PDB格式
PDB(Protein Data Bank)是一种广泛使用的蛋白质结构格式。Boltz生成的PDB文件包含标准的原子坐标记录(ATOM/HETATM)、连接信息(CONECT)以及链终止记录(TER)。
PDB文件的写入逻辑在src/boltz/data/write/pdb.py中实现。与MMCIF类似,pLDDT分数也存储在B因子字段中。
置信度文件
置信度文件(confidence_*.json)包含多种结构置信度指标,如:
confidence_score: 综合置信度分数(用于排序预测结果)ptm: 预测的TM分数iptm: 界面加权的TM分数complex_plddt: 复合物的平均pLDDT分数chains_ptm: 各链的TM分数pair_chains_iptm: 链间界面TM分数
这些指标有助于评估预测结构的可靠性和质量。
亲和力预测文件
当在输入YAML文件中指定properties: - affinity:时,Boltz会生成亲和力预测文件(affinity_*.json)。该文件包含以下关键指标:
affinity_pred_value: 预测的结合亲和力(log10(IC50))affinity_probability_binary: 配体作为结合剂的概率
亲和力预测的实现细节可参考src/boltz/data/crop/affinity.py中的AffinityCropper类,该类负责为亲和力预测准备输入数据。
PDB/MMCIF文件解析
原子坐标记录
在PDB和MMCIF文件中,原子坐标是最核心的信息。以PDB格式为例,典型的ATOM记录如下:
ATOM 1000 N ALA A 10 -10.000 20.000 30.000 1.00 90.00 N
这里:
- 第7-11列:原子序号
- 第13-16列:原子名称
- 第17列:替代位置指示符
- 第18-20列:残基名称
- 第22列:链标识符
- 第23-26列:残基序号
- 第31-38列:X坐标
- 第39-46列:Y坐标
- 第47-54列:Z坐标
- 第55-60列:占有率
- 第61-66列:温度因子(B因子),在Boltz输出中存储pLDDT分数
pLDDT分数解读
pLDDT(predicted Local Distance Difference Test)是一种每残基的局部结构置信度分数,范围从0到100。较高的pLDDT值(如>90)表示该区域的结构预测较为可靠,而较低的值(如<50)表示该区域的结构不确定性较高。
在Boltz输出的PDB/MMCIF文件中,pLDDT分数存储在温度因子(B因子)字段中。可以通过分析这一字段来评估结构各部分的可靠性。
上图展示了pLDDT分数与实验结构一致性的关系,进一步验证了pLDDT作为结构置信度指标的有效性。
亲和力预测结果分析
结合亲和力(affinity_pred_value)
affinity_pred_value表示预测的结合亲和力,单位为log10(IC50)。这个值与IC50(半数抑制浓度)的关系如下:
- IC50 = 10^y μM,其中y是
affinity_pred_value - 例如:y = -3 对应 IC50 = 10^-3 μM = 1 nM(强结合)
- y = 0 对应 IC50 = 1 μM(中等结合)
- y = 2 对应 IC50 = 100 μM(弱结合)
可以使用公式(6 - y) * 1.364将affinity_pred_value转换为pIC50(单位:kcal/mol)。
结合概率(affinity_probability_binary)
affinity_probability_binary表示配体作为结合剂的概率,范围从0到1。较高的值(如>0.8)表明配体很可能是一个有效的结合剂,而较低的值(如<0.2)则表明配体可能是一个非结合剂(诱饵)。
亲和力预测的实现
Boltz的亲和力预测模块在src/boltz/data/crop/affinity.py中实现。AffinityCropper类负责准备结合口袋区域的数据,为亲和力预测模型提供输入。
该模块采用了一种基于距离的裁剪策略,优先选择靠近配体的蛋白质残基,以捕捉关键的结合相互作用。
实际案例分析
输出文件解读示例
假设我们使用以下命令运行Boltz预测:
boltz predict examples/ligand.yaml --output_format pdb --use_potentials
预测完成后,我们得到以下关键文件:
predictions/ligand/ligand_model_0.pdb: PDB格式的结构文件predictions/ligand/confidence_ligand_model_0.json: 置信度文件predictions/ligand/affinity_ligand.json: 亲和力预测文件
结构文件分析
在PDB文件中,我们可以查看配体结合口袋区域的原子坐标和B因子(pLDDT)值:
ATOM 100 N LYS A 45 -15.234 22.345 30.123 1.00 95.67 N
ATOM 101 CA LYS A 45 -14.876 21.001 30.567 1.00 94.23 C
...
HETATM 2000 C1 LIG B 1 -20.123 25.678 32.890 1.00 88.45 C
高pLDDT值(如95.67)表明这些残基的结构预测较为可靠。
置信度分析
置信度文件中的关键值:
{
"confidence_score": 0.876,
"ptm": 0.892,
"iptm": 0.854,
"complex_plddt": 0.887,
"ligand_iptm": 0.832
}
高ligand_iptm值(0.832)表明配体-蛋白质界面的预测质量较好,支持该结合模式的可靠性。
亲和力分析
亲和力预测文件中的关键值:
{
"affinity_pred_value": -1.5,
"affinity_probability_binary": 0.92
}
affinity_pred_value为-1.5,对应IC50约为0.03 μM(30 nM),表明较强的结合亲和力。affinity_probability_binary为0.92,表明配体极有可能是一个有效的结合剂。
可视化分析
Boltz提供了一些可视化工具来帮助分析预测结果。例如,docs/pearson_plot.png展示了预测pLDDT与实验数据的相关性,验证了模型的可靠性。
此外,docs/plot_test_boltz2.png展示了Boltz-2模型在测试集上的性能评估结果,进一步验证了模型的准确性。
总结与最佳实践
关键指标解读
- 结构质量评估:优先关注
confidence_score、complex_plddt和iptm - 结合亲和力:
affinity_pred_value越低(越负),结合越强 - 结合可能性:
affinity_probability_binary越高,配体越可能是结合剂
结果可靠性判断
- 高pLDDT值(>90)区域的结构预测较为可靠
- 高
iptm和ligand_iptm值表明界面预测质量好 - 结合亲和力预测在配体大小适中(<56个重原子)时更为可靠
高级分析建议
- 结合结构可视化工具(如PyMOL)分析结合模式
- 比较多个预测模型(
--diffusion_samples > 1)的一致性 - 结合PAE(预测的原子误差)分析结构柔性区域
通过综合运用这些分析方法,用户可以更全面地理解Boltz的预测结果,并将其应用于药物发现、蛋白质工程等研究领域。
更多详细信息,请参考官方文档:docs/prediction.md
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00

