AlphaGenome模型输出元数据深度解析

2025-06-26 19:09:19作者：戚魁泉Nursing

前言

AlphaGenome作为基因组预测模型，能够输出多种类型的基因组学数据预测结果。本文将深入解析AlphaGenome的11种输出类型及其相关元数据，帮助研究人员更好地理解和使用这些预测结果。

模型输出类型概览

AlphaGenome提供了11种不同类型的基因组学预测输出，涵盖了转录组、表观遗传学、染色质结构等多个维度。每种输出类型都有其特定的生物学意义和技术特征。

主要输出类型分类

转录组相关输出
- RNA_SEQ：RNA测序表达量
- CAGE：转录起始位点表达量
- PROCAP：精确运行测序捕获的转录起始位点表达量
染色质可及性输出
- DNASE：DNase I超敏感位点测序
- ATAC：转座酶可及染色质测序
蛋白质-DNA互作输出
- CHIP_HISTONE：组蛋白修饰ChIP-seq
- CHIP_TF：转录因子ChIP-seq
RNA剪接相关输出
- SPLICE_SITES：剪接位点预测
- SPLICE_JUNCTIONS：剪接连接点预测
- SPLICE_SITE_USAGE：剪接位点使用率
三维基因组结构输出
- CONTACT_MAPS：染色质接触图谱

输出类型详细解析

1. RNA测序表达量(RNA_SEQ)

RNA_SEQ输出提供了基于RNA测序数据的基因表达预测，包含PolyA+ RNA和Total RNA两种测序方法的结果。部分数据还包含链特异性信息。

技术参数：

单位：标准化读段信号
分辨率：1bp
生物样本数：285
总轨道数：667

2. 染色质可及性数据(DNASE/ATAC)

DNASE和ATAC分别使用不同的技术测量染色质可及性：

DNASE：

基于DNase I超敏感位点测序
生物样本数：305
轨道数：305

ATAC：

基于转座酶可及染色质测序
生物样本数：167
轨道数：167

两者都提供1bp分辨率的标准化插入信号。

3. 组蛋白修饰与转录因子数据(CHIP)

CHIP数据分为两类：

CHIP_HISTONE：

包含24种不同组蛋白修饰标记
分辨率：128bp
使用fold-change over control作为单位

CHIP_TF：

包含43种不同转录因子
同样使用128bp分辨率

4. 剪接相关数据

AlphaGenome提供了三种剪接相关预测：

SPLICE_SITES：

预测剪接位点(供体和受体)的概率
分辨率：1bp
输出为概率值(0-1)

SPLICE_JUNCTIONS：

预测RNA测序中的剪接连接点读段计数
分辨率：1bp

SPLICE_SITE_USAGE：

预测特定剪接位点的使用比例
单位：分数(0-1)

5. 染色质接触图谱(CONTACT_MAPS)

CONTACT_MAPS提供了基因组位点间的物理接触频率预测：

基于Micro-C和Hi-C数据
分辨率：2048bp
单位：相对于基因组距离预期的对数倍数

元数据访问与使用

AlphaGenome提供了详细的元数据信息，可以通过Python API访问：

output_metadata = dna_model.output_metadata(
    organism=dna_client.Organism.HOMO_SAPIENS
)

元数据以DataFrame格式存储，包含以下关键信息：

name：轨道名称
strand：链信息(+/-, 或.)
ontology_curie：生物样本的本体论ID
biosample_name：生物样本描述

特殊注意事项

对于SPLICE_JUNCTION输出，链信息是连接点的属性而非轨道的属性，因此元数据显示的行数会比表中报告的数量少一半。
部分输出类型包含额外列，如RNA_SEQ和SPLICE_SITES包含gtex_tissue列，标识GTEx项目中的组织来源。
对于"Brain - Cerebellar hemisphere"组织，使用了UBERON:0002245而非GTEx文档中的UBERON:0002037，以更准确地反映小脑半球的本体论ID。

最佳实践建议

选择适当的输出类型：根据研究问题选择最相关的输出类型，如研究基因表达选择RNA_SEQ，研究染色质结构选择CONTACT_MAPS。
注意分辨率差异：不同输出类型的分辨率从1bp到2048bp不等，这会影响分析的精细程度。
利用元数据进行筛选：通过元数据中的生物样本信息可以筛选特定组织或细胞类型的预测结果。
理解数据标准化：不同输出类型使用不同的标准化方法(如fold-change、概率值等)，理解这些单位对正确解释结果至关重要。

结语

AlphaGenome的多样化输出为基因组学研究提供了丰富的预测资源。通过深入理解这些输出类型的特性和元数据结构，研究人员可以更有效地利用这些预测结果，推动基因组学研究的进展。

alphagenome

This API provides programmatic access to the AlphaGenome model developed by Google DeepMind.

项目地址：https://gitcode.com/gh_mirrors/al/alphagenome

登录后查看全文