【亲测免费】 SpliceAI 项目教程

2026-01-23 05:26:06作者：苗圣禹Peter

1. 项目介绍

SpliceAI 是一个基于深度学习的工具，用于识别剪接变体。该工具能够注释遗传变异对其剪接效应的预测影响，如 Jaganathan 等人在 Cell 2019 中描述的那样。SpliceAI 的注释适用于所有可能的替换、1 个碱基插入和 1-4 个碱基删除，这些注释可用于学术和非营利性用途，其他用途需要从 Illumina, Inc. 获得商业许可证。

2. 项目快速启动

安装 SpliceAI

SpliceAI 可以通过 pip 或 conda 进行安装：

pip install spliceai

或者：

conda install -c bioconda spliceai

从 GitHub 安装

你也可以从 GitHub 仓库安装 SpliceAI：

git clone https://github.com/Illumina/SpliceAI.git
cd SpliceAI
python setup.py install

使用 SpliceAI

SpliceAI 可以通过命令行运行：

spliceai -I input.vcf -O output.vcf -R genome.fa -A grch37

参数说明：

-I: 输入包含感兴趣变异的 VCF 文件。
-O: 输出包含 SpliceAI 预测的 VCF 文件。
-R: 参考基因组 fasta 文件。
-A: 基因注释文件。

3. 应用案例和最佳实践

案例 1：基因变异注释

假设你有一个包含基因变异的 VCF 文件 input.vcf，你可以使用 SpliceAI 对其进行注释：

spliceai -I input.vcf -O annotated.vcf -R genome.fa -A grch37

案例 2：自定义序列评分

SpliceAI 还可以用于对自定义序列进行评分：

from keras.models import load_model
from pkg_resources import resource_filename
from spliceai.utils import one_hot_encode
import numpy as np

input_sequence = 'CGATCTGACGTGGGTGTCATCGCATTATCGATATTGCAT'
context = 10000
paths = ('models/spliceai[].h5'.format(x) for x in range(1, 6))
models = [load_model(resource_filename('spliceai', x)) for x in paths]
x = one_hot_encode('N'*(context//2) + input_sequence + 'N'*(context//2))[None, :]
y = np.mean([models[m].predict(x) for m in range(5)], axis=0)
acceptor_prob = y[0, :, 1]
donor_prob = y[0, :, 2]