如何快速组装叶绿体与线粒体基因组？GetOrganelle完整工具指南

2026-02-05 05:10:42作者：丁柯新Fawn

GetOrganelle是一款专为植物和真菌设计的细胞器基因组组装工具，能够高效从高通量测序数据中提取并组装叶绿体、线粒体基因组及ITS序列。作为开源生物信息学工具，它支持Illumina、PacBio等多平台数据，提供灵活参数配置满足不同研究需求。

🚀 核心功能与优势

为什么选择GetOrganelle？

多类型数据支持：兼容Illumina短读长、PacBio/Nanopore长读长数据
自动化流程：从原始reads到完整基因组的一键式组装
高精度组装：内置纠错算法与重复序列处理机制
轻量级设计：低内存占用，普通服务器即可高效运行

细胞器基因组组装流程 图1：GetOrganelle标准组装流程示意图（包含数据质控、图谱构建与基因组环化步骤）

🔧 快速上手指南

1. 一键安装步骤

推荐使用conda进行环境配置，5分钟即可完成安装：

conda install -c bioconda getorganelle

2. 数据库初始化

首次使用需下载对应参考数据库（以植物叶绿体为例）：

get_organelle_config.py --add embplant_pt

支持的数据库类型：

embplant_pt：高等植物叶绿体
embplant_mt：高等植物线粒体
fungi_mt：真菌线粒体
its2：ITS2区域

数据库选择界面 图2：GetOrganelle支持的主要数据库类型及应用场景

3. 基础运行命令

案例1：Illumina双端数据组装叶绿体

get_organelle_from_reads.py -1 forward.fq -2 reverse.fq \
  -o plastome_output -R 15 -k 21,45,65,85,105 -F embplant_pt

案例2：PacBio单分子数据组装线粒体

get_organelle_from_reads.py -s pacbio.fq -o mitogenome_output \
  -R 30 -k 31,51,71,91 -F embplant_mt

💡 高级参数优化

关键参数说明

参数	作用	推荐值
-k	k-mer长度列表	21,45,65（Illumina）；71,91（PacBio）
-R	最大延伸轮次	15-30（复杂基因组建议30）
-F	数据库类型	根据目标基因组选择
--memory	内存限制	8-16G（视数据量调整）

常见问题解决方案

组装不完整：增加-k的最大值或调整-R参数
污染序列：使用--filter参数提高筛选严格度
高重复区域：添加--reduce_redundancy参数

📊 结果解读与评估

输出文件说明

主要结果文件位于输出目录：

circular_plastome.fasta：最终环化基因组
assembly_graph.gfa：组装图谱文件
log.txt：完整运行日志（包含质量评估指标）

质量评估指标

基因组完整性：>95%视为高质量组装
覆盖深度：建议平均深度>50x
N50值：越长表示组装连续性越好

组装质量评估报告 图3：GetOrganelle自动生成的质量评估报告示例

🔄 生态系统与扩展应用

下游分析工具链

基因组注释：

prokka circular_plastome.fasta --outdir annotation

系统发育分析：

mafft circular_plastome.fasta > aligned.fasta
raxmlHPC -s aligned.fasta -n tree -m GTRGAMMA

批量处理方案

使用Utilities目录下的批量处理脚本：

make_batch_for_get_organelle.py --input samples.txt --outdir batch_jobs

📚 参考资料与引用

如果使用GetOrganelle发表研究，请引用：

Jin et al. (2020). GetOrganelle: A fast and versatile toolkit for accurate de novo assembly of organelle genomes. Genome Biology, 21(1), 1-16.

官方文档：docs/manual.pdf
GitHub仓库：git clone https://gitcode.com/gh_mirrors/ge/GetOrganelle

GetOrganelle团队 图4：GetOrganelle开发团队与合作机构（2023年更新）

提示：定期运行get_organelle_config.py --update可获取最新数据库与功能更新！

GetOrganelle

Organelle Genome Assembly Toolkit (Chloroplast/Mitocondrial/ITS)

项目地址：https://gitcode.com/gh_mirrors/ge/GetOrganelle

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

202

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理