首页
/ Dorado 使用教程

Dorado 使用教程

2025-04-17 15:01:48作者:邵娇湘

1. 项目介绍

Dorado 是由 Oxford Nanopore 开发的一款高性能、易用的开源 basecaller。它用于对 Oxford Nanopore 测序读取结果进行分析,提供了自动硬件检测和配置功能。Dorado 支持多种平台,包括 Apple Silicon (M 系列) 和 Nvidia GPU,并且支持多 GPU 线性扩展。

Dorado 的主要特点包括:

  • 单个可执行文件,具有合理的默认设置。
  • 支持修改后的 basecalling 和双链 basecalling。
  • 简单的条形码分类。
  • 支持SAM/BAM格式对齐读取输出。
  • 初步支持poly(A)尾估计。
  • 支持单一读取错误校正。
  • POD5支持,以实现最高的 basecalling 性能。
  • 基于 libtorch,即 pytorch 的 C++ API。
  • 在 CUDA 和 Metal 中进行多项自定义优化,以最大化推理性能。

2. 项目快速启动

首先,根据您的平台下载相应的安装程序:

  • dorado-0.9.6-linux-x64
  • dorado-0.9.6-linux-arm64
  • dorado-0.9.6-osx-arm64
  • dorado-0.9.6-win64

下载后,解压存档到您希望的位置。然后,您可以使用完整路径调用 Dorado,例如:

/path/to/dorado-x.y.z-linux-x64/bin/dorado basecaller hac pod5s/ > calls.bam

或者,您可以将 bin 路径添加到您的 PATH 环境变量中,直接使用 dorado 命令:

dorado basecaller hac pod5s/ > calls.bam

查看 DEV.md 文件获取关于构建 Dorado 的详细信息。

3. 应用案例和最佳实践

以下是使用 Dorado 的一些案例和最佳实践:

  • 使用 POD5 文件输入以获得最佳性能,请先转换您的 .fast5 文件。
  • Dorado 会自动检测 GPU 的空闲内存并选择合适的批处理大小。
  • 在具有多个 GPU 的系统上,Dorado 会默认以多 GPU 模式运行。
  • 在 Windows 系统上,确保在 Nvidia 控制面板中将“CUDA - 系统内存回退策略”设置为“首选无系统内存回退”,以提高性能。

4. 典型生态项目

Dorado 是 Oxford Nanopore 生态系统的一部分,与其他开源项目协同工作,例如:

  • nanoporetech/porechop:用于修剪和拆分 Oxford Nanopore 序列数据。
  • nanoporetech/scrappie:一个快速的 basecalling 软件,用于 Oxford Nanopore 数据。

通过整合这些项目,可以构建一个完整的分析流程,从而更有效地处理和解读测序数据。

登录后查看全文
热门项目推荐