Boltz输出文件解读:PDB/MMCIF格式与亲和力预测结果分析
概述
Boltz作为生物分子相互作用模型(Boltz-1 biomolecular interaction model),其输出文件包含丰富的结构信息和预测结果。本文将详细解读Boltz生成的PDB/MMCIF格式文件以及亲和力预测结果,帮助用户更好地理解和利用模型输出。
输出文件结构
Boltz的预测结果默认保存在predictions目录下,每个输入文件对应一个子目录。典型的输出文件结构如下:
out_dir/
├── predictions/
│ ├── [input_file1]/
│ │ ├── [input_file1]_model_0.cif # MMCIF格式结构文件
│ │ ├── confidence_[input_file1]_model_0.json # 置信度分数文件
│ │ ├── affinity_[input_file1].json # 亲和力预测结果文件
│ │ ├── pae_[input_file1]_model_0.npz # 预测的PAE分数
│ │ ├── pde_[input_file1]_model_0.npz # 预测的PDE分数
│ │ └── plddt_[input_file1]_model_0.npz # 预测的pLDDT分数
结构文件格式
Boltz支持两种主要的结构输出格式:MMCIF(默认)和PDB。用户可以通过--output_format选项指定输出格式。
MMCIF格式
MMCIF(Macromolecular Crystallographic Information File)是一种灵活的、可扩展的格式,能够存储丰富的结构信息和相关元数据。Boltz生成的MMCIF文件包含以下关键信息:
- 原子坐标和位移参数(B因子,存储pLDDT分数)
- 链和残基信息
- 化学组件定义
- 结构置信度信息(如pLDDT)
MMCIF文件的写入逻辑在src/boltz/data/write/mmcif.py中实现。该模块使用modelcif库构建符合规范的MMCIF文件,并将pLDDT分数以B因子的形式嵌入到文件中。
PDB格式
PDB(Protein Data Bank)是一种广泛使用的蛋白质结构格式。Boltz生成的PDB文件包含标准的原子坐标记录(ATOM/HETATM)、连接信息(CONECT)以及链终止记录(TER)。
PDB文件的写入逻辑在src/boltz/data/write/pdb.py中实现。与MMCIF类似,pLDDT分数也存储在B因子字段中。
置信度文件
置信度文件(confidence_*.json)包含多种结构置信度指标,如:
confidence_score: 综合置信度分数(用于排序预测结果)ptm: 预测的TM分数iptm: 界面加权的TM分数complex_plddt: 复合物的平均pLDDT分数chains_ptm: 各链的TM分数pair_chains_iptm: 链间界面TM分数
这些指标有助于评估预测结构的可靠性和质量。
亲和力预测文件
当在输入YAML文件中指定properties: - affinity:时,Boltz会生成亲和力预测文件(affinity_*.json)。该文件包含以下关键指标:
affinity_pred_value: 预测的结合亲和力(log10(IC50))affinity_probability_binary: 配体作为结合剂的概率
亲和力预测的实现细节可参考src/boltz/data/crop/affinity.py中的AffinityCropper类,该类负责为亲和力预测准备输入数据。
PDB/MMCIF文件解析
原子坐标记录
在PDB和MMCIF文件中,原子坐标是最核心的信息。以PDB格式为例,典型的ATOM记录如下:
ATOM 1000 N ALA A 10 -10.000 20.000 30.000 1.00 90.00 N
这里:
- 第7-11列:原子序号
- 第13-16列:原子名称
- 第17列:替代位置指示符
- 第18-20列:残基名称
- 第22列:链标识符
- 第23-26列:残基序号
- 第31-38列:X坐标
- 第39-46列:Y坐标
- 第47-54列:Z坐标
- 第55-60列:占有率
- 第61-66列:温度因子(B因子),在Boltz输出中存储pLDDT分数
pLDDT分数解读
pLDDT(predicted Local Distance Difference Test)是一种每残基的局部结构置信度分数,范围从0到100。较高的pLDDT值(如>90)表示该区域的结构预测较为可靠,而较低的值(如<50)表示该区域的结构不确定性较高。
在Boltz输出的PDB/MMCIF文件中,pLDDT分数存储在温度因子(B因子)字段中。可以通过分析这一字段来评估结构各部分的可靠性。
上图展示了pLDDT分数与实验结构一致性的关系,进一步验证了pLDDT作为结构置信度指标的有效性。
亲和力预测结果分析
结合亲和力(affinity_pred_value)
affinity_pred_value表示预测的结合亲和力,单位为log10(IC50)。这个值与IC50(半数抑制浓度)的关系如下:
- IC50 = 10^y μM,其中y是
affinity_pred_value - 例如:y = -3 对应 IC50 = 10^-3 μM = 1 nM(强结合)
- y = 0 对应 IC50 = 1 μM(中等结合)
- y = 2 对应 IC50 = 100 μM(弱结合)
可以使用公式(6 - y) * 1.364将affinity_pred_value转换为pIC50(单位:kcal/mol)。
结合概率(affinity_probability_binary)
affinity_probability_binary表示配体作为结合剂的概率,范围从0到1。较高的值(如>0.8)表明配体很可能是一个有效的结合剂,而较低的值(如<0.2)则表明配体可能是一个非结合剂(诱饵)。
亲和力预测的实现
Boltz的亲和力预测模块在src/boltz/data/crop/affinity.py中实现。AffinityCropper类负责准备结合口袋区域的数据,为亲和力预测模型提供输入。
该模块采用了一种基于距离的裁剪策略,优先选择靠近配体的蛋白质残基,以捕捉关键的结合相互作用。
实际案例分析
输出文件解读示例
假设我们使用以下命令运行Boltz预测:
boltz predict examples/ligand.yaml --output_format pdb --use_potentials
预测完成后,我们得到以下关键文件:
predictions/ligand/ligand_model_0.pdb: PDB格式的结构文件predictions/ligand/confidence_ligand_model_0.json: 置信度文件predictions/ligand/affinity_ligand.json: 亲和力预测文件
结构文件分析
在PDB文件中,我们可以查看配体结合口袋区域的原子坐标和B因子(pLDDT)值:
ATOM 100 N LYS A 45 -15.234 22.345 30.123 1.00 95.67 N
ATOM 101 CA LYS A 45 -14.876 21.001 30.567 1.00 94.23 C
...
HETATM 2000 C1 LIG B 1 -20.123 25.678 32.890 1.00 88.45 C
高pLDDT值(如95.67)表明这些残基的结构预测较为可靠。
置信度分析
置信度文件中的关键值:
{
"confidence_score": 0.876,
"ptm": 0.892,
"iptm": 0.854,
"complex_plddt": 0.887,
"ligand_iptm": 0.832
}
高ligand_iptm值(0.832)表明配体-蛋白质界面的预测质量较好,支持该结合模式的可靠性。
亲和力分析
亲和力预测文件中的关键值:
{
"affinity_pred_value": -1.5,
"affinity_probability_binary": 0.92
}
affinity_pred_value为-1.5,对应IC50约为0.03 μM(30 nM),表明较强的结合亲和力。affinity_probability_binary为0.92,表明配体极有可能是一个有效的结合剂。
可视化分析
Boltz提供了一些可视化工具来帮助分析预测结果。例如,docs/pearson_plot.png展示了预测pLDDT与实验数据的相关性,验证了模型的可靠性。
此外,docs/plot_test_boltz2.png展示了Boltz-2模型在测试集上的性能评估结果,进一步验证了模型的准确性。
总结与最佳实践
关键指标解读
- 结构质量评估:优先关注
confidence_score、complex_plddt和iptm - 结合亲和力:
affinity_pred_value越低(越负),结合越强 - 结合可能性:
affinity_probability_binary越高,配体越可能是结合剂
结果可靠性判断
- 高pLDDT值(>90)区域的结构预测较为可靠
- 高
iptm和ligand_iptm值表明界面预测质量好 - 结合亲和力预测在配体大小适中(<56个重原子)时更为可靠
高级分析建议
- 结合结构可视化工具(如PyMOL)分析结合模式
- 比较多个预测模型(
--diffusion_samples > 1)的一致性 - 结合PAE(预测的原子误差)分析结构柔性区域
通过综合运用这些分析方法,用户可以更全面地理解Boltz的预测结果,并将其应用于药物发现、蛋白质工程等研究领域。
更多详细信息,请参考官方文档:docs/prediction.md
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00

