AlphaFold 3高级输入技巧：多链蛋白与复合物定义

2026-02-06 05:45:29作者：庞眉杨Will

多链复合物建模痛点与解决方案

在蛋白质结构预测中，多链复合物（如抗体-抗原结合体、蛋白-RNA复合物）的准确建模一直是难点。传统工具往往需要复杂的配置文件或编程知识，而AlphaFold 3通过JSON输入系统提供了灵活解决方案。本文将系统讲解如何通过docs/input.md定义的输入格式，实现多链蛋白、核酸及配体的精准组合，解决实验中常见的"链识别错误""复合物构象异常"等问题。

输入文件基础架构

AlphaFold 3支持两种输入方式：单JSON文件（--json_path）或多JSON目录（--input_dir）。JSON文件需遵循alphafold3 dialect规范，核心结构包含：

{
  "name": "抗体-抗原复合物预测",
  "modelSeeds": [42, 123],  // 至少1个随机种子
  "sequences": [
    {"protein": {...}},  // 蛋白链
    {"rna": {...}},      // RNA链
    {"ligand": {...}}    // 配体
  ],
  "bondedAtomPairs": [...],  // 共价键定义
  "dialect": "alphafold3",   // 必须字段
  "version": 2               // 支持1或2，v2新增MSA路径功能
}

关键约束：所有链必须有唯一ID，拓扑结构通过bondedAtomPairs显式定义，避免模型自动推断错误。

多链蛋白定义实战

基础链定义

每个蛋白链通过protein对象定义，包含ID、序列及修饰信息：

{
  "protein": {
    "id": "H",  // 重链
    "sequence": "QVQLQESGPGLVKPSQTLSLTCSFSGFSLSTYGVHWVRQPPGKGLEWIG",
    "modifications": [{"ptmType": "HY3", "ptmPosition": 1}]  // N端修饰
  }
}

技术细节：修饰使用Chemical Component Dictionary (CCD)编码，如"HY3"代表羟基脯氨酸。完整修饰列表可在constants/chemical_components.py中查询。

同型多聚体快捷定义

对于同源四聚体等对称结构，可通过ID列表简化定义：

{
  "protein": {
    "id": ["A", "B", "C", "D"],  // 四个相同亚基
    "sequence": "MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN"
  }
}

链间相互作用定义

通过bondedAtomPairs指定链间共价键，如抗体二硫键：

"bondedAtomPairs": [
  [["H", 22, "SG"], ["L", 22, "SG"]]  // H链22位Cys与L链22位Cys
]

原子命名规范：需使用PDB标准原子名（如"SG"为半胱氨酸硫原子），可通过structure/mmcif.py解析现有结构获取参考。

核酸-蛋白复合物构建

RNA链定义

RNA链支持修饰碱基，如假尿苷（"PSU"）：

{
  "rna": {
    "id": "R",
    "sequence": "AGCU",
    "modifications": [{"modificationType": "2MG", "basePosition": 1}]  // 2'-O-甲基鸟苷
  }
}

蛋白-RNA相互作用

通过bondedAtomPairs定义非共价相互作用时，需确保：

原子名称准确（如RNA的"O2'"与蛋白的"NH1"）
残基编号为1-based索引
避免过度定义（建议只定义关键作用位点）

配体与辅因子整合

配体定义三要素

配体支持三种定义方式：

CCD编码：适用于已知小分子（如ATP）

{"ligand": {"id": "ATP", "ccdCodes": ["ATP"]}}

SMILES字符串：自定义小分子（注意JSON转义）

{"ligand": {
  "id": "LIG",
  "smiles": "CC(=O)OC1=CC=CC=C1C(=O)O"  // 阿司匹林
}}

用户自定义CCD：通过userCCD字段提供完整化学定义，适用于非标准配体。

金属离子处理

离子视为特殊配体，如镁离子：

{"ligand": {"id": "MG", "ccdCodes": ["MG"]}}

最佳实践：对于ATP结合蛋白，建议同时定义Mg²+和ATP，并通过bondedAtomPairs指定Mg²+与ATP的磷酸氧原子连接。

MSA与模板高级配置

多链MSA配对策略

多链预测时，MSA需按物种来源配对。通过unpairedMsaPath和pairedMsaPath指定外部A3M文件：

{
  "protein": {
    "id": "A",
    "unpairedMsaPath": "chainA_msa.a3m",  // 单链MSA
    "pairedMsaPath": "complex_msa.a3m"    // 多链共进化MSA
  }
}

配对原理：AlphaFold 3通过比对物种ID将不同链的MSA行关联，形成跨链共进化特征。详细算法见model/msa_pairing.py。

模板选择与应用

指定PDB模板时需提供残基映射：

"templates": [{
  "mmcifPath": "1fcc.cif",  // 模板文件
  "queryIndices": [0,1,2,3], // 查询链残基索引
  "templateIndices": [10,11,12,13] // 模板链残基索引
}]

常见问题诊断与解决

问题现象	可能原因	解决方案
链顺序混乱	ID命名不规范	使用字母表顺序命名（A,B,C...）
配体未结合	缺少共价键定义	通过`bondedAtomPairs`指定结合位点
MSA构建失败	序列含非标准字符	检查是否符合ProteinChain验证规则
内存溢出	多链序列过长	拆分预测或增加`--max_template_date`限制

实战案例：抗体-抗原复合物预测

以下为完整的双抗-抗原三元复合物输入示例（关键部分）：

{
  "name": "双特异性抗体-IL6复合物",
  "modelSeeds": [42, 88, 100],
  "sequences": [
    {
      "protein": {
        "id": "H1",  // 抗体1重链
        "sequence": "EVQLVESGGGLVQPGGSLRLSCAASGFTFSSYGMHWVRQAPGKGLEWVSAISGSGGSTYYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCAK"
      }
    },
    {
      "protein": {
        "id": "L1",  // 抗体1轻链
        "sequence": "DIQMTQSPSSLSASVGDRVTITCRASQDISNYLNWFQQKPGKAPKLLIYYTSRLHSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQYDNLPFTFGQGTKVEIK"
      }
    },
    {
      "protein": {
        "id": "IL6",  // 抗原
        "sequence": "MALIKKLVVVLVLLGAAALQSTVQLQESGPGLVKPSQTLSLTCSFSGFSLSTYGVHWVRQPPGKGLEWIG"
      }
    },
    {
      "ligand": {
        "id": "ZN",  // 活性中心锌离子
        "ccdCodes": ["ZN"]
      }
    }
  ],
  "bondedAtomPairs": [
    [["H1", 23, "SG"], ["L1", 21, "SG"]],  // 链内二硫键
    [["IL6", 120, "HIS"], ["ZN", 1, "ZN"]] // 锌配位键
  ]
}