AlphaFold3输入文件规范解析与常见问题

2025-06-03 05:45:48作者：宗隆裙

输入文件结构概述

AlphaFold3作为蛋白质结构预测领域的先进工具，其输入文件采用JSON格式，包含了模型运行所需的所有配置信息。一个典型的输入文件主要由以下几个部分组成：

基本信息：包括项目名称(name)、随机种子(modelSeeds)等
序列信息：包含蛋白质(protein)、DNA(dna)、RNA(rna)和配体(ligand)等多种生物分子的定义
修饰信息：描述各种分子的翻译后修饰
连接关系：定义不同分子间的相互作用
版本控制：指定使用的AlphaFold3版本

序列定义详解

蛋白质序列

蛋白质序列定义包含三个关键元素：

唯一标识符(id)
氨基酸序列(sequence)
可选的翻译后修饰(modifications)

"protein": {
  "id": "A",
  "sequence": "PVLSCGEWQL",
  "modifications": [
    {"ptmType": "HY3", "ptmPosition": 1},
    {"ptmType": "P1L", "ptmPosition": 5}
  ]
}

核酸序列

DNA和RNA序列定义类似，都包含：

唯一标识符
碱基序列
碱基修饰信息

RNA序列还支持多序列比对(MSA)配置，这是预测准确性的重要因素。

配体定义

配体定义较为特殊，支持三种指定方式：

通过CCD代码指定已知配体
通过SMILES字符串定义自定义配体
多残基配体需要额外指定连接关系

"ligand": {
  "id": ["F", "G", "H"],  // 多残基配体需要多个ID
  "ccdCodes": ["ATP"]
}

连接关系规范

分子间的连接关系通过bondedAtomPairs数组定义，每个连接项包含两个原子的完整描述：

分子ID
残基位置
原子名称

"bondedAtomPairs": [
  [["A", 1, "CA"], ["B", 1, "CA"]],  // 蛋白质间连接
  [["A", 1, "CA"], ["G", 1, "CHA"]], // 蛋白质-配体连接
  [["I", 1, "O6"], ["I", 2, "C1"]]   // 配体内残基连接
]

RNA多序列比对配置

RNA的MSA配置有三种模式，对预测结果有重要影响：

未设置或设为null：系统会自动搜索并构建MSA
```
"unpairedMsa": null
```
设为空字符串：系统将不使用MSA，以MSA-free模式运行
```
"unpairedMsa": ""
```
提供A3M格式字符串：系统将使用用户提供的MSA数据
```
"unpairedMsa": ">seq1\nAGCU"
```

常见配置问题

在实际使用中，有几个常见问题需要注意：

配体ID与连接关系不匹配：多残基配体需要确保连接关系中使用的ID与定义一致
MSA配置误解：null与空字符串在MSA配置中有本质区别，前者触发自动搜索，后者禁用MSA
版本兼容性：确保dialect和version字段与使用的AlphaFold3版本匹配

正确配置这些参数对于获得准确的预测结果至关重要，建议用户在提交大规模计算前先用小规模测试验证输入文件的正确性。

alphafold3

AlphaFold 3 inference pipeline.

项目地址：https://gitcode.com/gh_mirrors/alp/alphafold3

登录后查看全文