【亲测免费】 seqtk：一款高效的序列处理工具

2026-01-14 17:52:16作者：宣利权Counsellor

项目介绍

是由 Leighton Pritchard 开发的一款用于处理 DNA 序列的命令行工具。它支持 FASTA 和 FASTQ 格式的序列数据，并提供了许多实用的功能，如提取子序列、随机抽样、质量控制等。

功能特性

seqtk 提供了以下功能：

从 FASTA 或 FASTQ 文件中提取指定范围的子序列。
将一个文件中的序列拆分成多个小文件。
随机抽样序列文件中的部分序列。
对序列进行排序、去重、过滤等操作。
质量控制，包括计算平均质量值、去除低质量序列等。

这些功能使得 seqtk 成为生物信息学领域中常用的序列处理工具之一。它的高效性能也得到了广泛的认可。

使用示例

以下是 seqtk 的一些使用示例：

提取子序列

要从一个 FASTA 文件中提取指定范围的子序列，可以使用 seqtk subseq 命令：

seqtk subseq in.fasta ref.fai out.fasta

其中，in.fasta 是输入的 FASTA 文件，ref.fai 是对应于 in.fasta 的索引文件（可以通过 samtools faidx 命令生成），out.fasta 是输出的子序列文件。

随机抽样

要从一个 FASTQ 文件中随机抽样一部分序列，可以使用 seqtk sample 命令：

seqtk sample in.fastq 0.1 > out.fastq

其中，in.fastq 是输入的 FASTQ 文件，0.1 表示抽样的比例（即抽取原始文件中 10% 的序列），out.fastq 是输出的抽样文件。

质量控制

要计算一个 FASTQ 文件中每个碱基的质量平均值，可以使用 seqtk seq 命令：

seqtk seq -Q33 in.fastq | awk '{print $4}' | paste -sd+ | bc

其中，-Q33 表示 FASTQ 文件中的质量编码方式（这里是 Sanger 编码），awk 命令用于提取每条记录的第四个字段（即质量值），paste 命令将所有质量值连接成一个字符串，然后通过 bc 命令进行加法运算并输出结果。

此外，还可以通过 seqtk qualtrim 命令去除质量不达标的序列：

seqtk qualtrim -q 20 in.fastq | gzip > out.fastq.gz

其中，-q 20 表示只保留质量值大于或等于 20 的序列，gzip 命令用于压缩输出文件。

总结

seqtk 是一款功能强大的序列处理工具，具有高效、易用的特点。无论是在科研还是在生产环境中，都可以方便地使用 seqtk 进行序列数据的预处理和分析。如果你需要处理 DNA 序列数据，不妨试试 seqtk！

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

360

229

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

MindSpeed-LLM

昇腾LLM分布式训练框架