CD-HIT序列聚类工具从入门到精通：7个实战技巧掌握生物信息学高效序列去冗余方法

2026-05-03 11:04:01作者：吴年前Myrtle

在生物信息学研究中，处理海量序列数据时常常面临重复序列占用计算资源、干扰分析结果的问题。CD-HIT作为一款高效的序列聚类工具，能够快速实现序列去冗余，是生物信息学分析中不可或缺的工具。本文将从原理、部署、操作、场景、错误诊断、性能优化等方面，全面介绍CD-HIT的使用方法，帮助新手快速掌握这一生物信息学工具。

功能原理图解

序列比对与聚类原理

CD-HIT的核心原理是基于序列相似度进行聚类。通过将序列与代表性序列进行比对，计算相似度，当相似度达到设定阈值时，将序列归为同一簇。

alt: CD-HIT序列比对原理展示，代表性序列与待聚类序列的比对关系，图中清晰显示了代表性序列（R）和待聚类序列（S）的结构，以及它们之间的比对区域（alignment），通过对不同区域（R1、Ra、R2和S1、Sa、S2）的分析来确定序列相似度。

分层次聚类策略

CD-HIT采用分层次聚类的方法，先进行粗聚类，再进行精细聚类，提高聚类效率和准确性。

alt: CD-HIT工具的分层次聚类策略示意图，展示了从数据库（DB）出发，经过cd-hit-div、cd-hit、cd-hit-2d等步骤，逐步得到不同聚类结果（a90、b90等），最终形成DB90的完整流程，体现了分层次聚类的优势。

环境部署指南

Windows平台

安装Git工具，用于克隆仓库。
打开命令提示符，执行以下命令克隆仓库：

git clone https://gitcode.com/gh_mirrors/cd/cdhit

安装MinGW或Cygwin等编译环境。
进入cdhit目录，执行make命令进行编译。

macOS平台

安装Xcode命令行工具，在终端中执行：

xcode-select --install

克隆仓库：

git clone https://gitcode.com/gh_mirrors/cd/cdhit

进入cdhit目录，执行make命令编译。

Linux平台

安装必要的编译工具：

sudo apt install g++ make

克隆仓库：

git clone https://gitcode.com/gh_mirrors/cd/cdhit

进入cdhit目录，执行make命令编译。

基础操作三原则

原则一：明确输入输出文件

使用CD-HIT时，必须明确指定输入序列文件（-i）和输出文件前缀（-o）。输入文件应为FASTA格式，输出文件将包含聚类信息（.clstr）和代表序列（.fasta）。

示例命令：

./cdhit -i input.fasta -o output

原则二：合理设置相似度阈值

相似度阈值（-c）是影响聚类结果的关键参数。蛋白质序列推荐使用0.9，核酸序列推荐使用0.95-0.97，可根据具体研究需求调整。

示例命令：

./cdhit -i proteins.fasta -o protein_clusters -c 0.9

原则三：关注计算资源配置

根据数据量大小和计算机配置，合理设置线程数（-T）和内存限制（-M）。线程数不宜超过CPU核心数，内存限制应根据可用内存设置，避免程序崩溃。

示例命令：

./cdhit -i large_data.fasta -o result -c 0.95 -T 4 -M 4000

进阶场景五例

场景一：蛋白质数据库构建

UniProt等数据库常用CD-HIT进行去冗余，提高数据库质量和使用效率。

./cdhit -i uniprot_proteins.fasta -o uniprot_clustered -c 0.9 -T 8 -M 8000

通过设置合适的参数，可将蛋白质数据库压缩率达到40%左右，减少存储空间和后续分析时间。

场景二：宏基因组16S rRNA序列OTU聚类

OTU（操作分类单元，用于微生物群落分析的基本单位）聚类是宏基因组分析的重要步骤。

./cdhit-est -i 16s_sequences.fasta -o otu_clusters -c 0.97

使用cdhit-est处理核酸序列，设置0.97的相似度阈值，可得到较为合理的OTU分类单元。

alt: CD-HIT在16S rRNA测序中的OTU聚类应用，图中展示了从Full length 16S reference到Spliced PE reference，再到Sample MiSeq PE reads的处理过程，以及最终OTU clustering of both reference & sample PE sequences的结果，清晰呈现了OTU聚类的完整流程。

场景三：转录组可变剪切异构体识别

在转录组分析中，识别可变剪切异构体对于理解基因表达调控具有重要意义。

./cdhit-est -i transcripts.fasta -o isoform_clusters -c 0.9 -n 10

通过设置适当的参数，可有效聚类不同的可变剪切异构体。

场景四：大规模序列数据分批次处理

当序列数据量过大，无法一次性处理时，可采用分批次处理的方法。

# 第一批处理
./cdhit -i batch1.fasta -o batch1_clusters -c 0.95 -T 4 -M 4000
# 第二批处理
./cdhit -i batch2.fasta -o batch2_clusters -c 0.95 -T 4 -M 4000
# 合并结果
clstr_merge.pl batch1_clusters.clstr batch2_clusters.clstr > merged.clstr

场景五：特定长度序列筛选与聚类

对于有长度要求的序列分析，可先筛选序列，再进行聚类。

# 筛选长度大于100的序列
seqkit seq -m 100 input.fasta > filtered.fasta
# 聚类筛选后的序列
./cdhit -i filtered.fasta -o filtered_clusters -c 0.95

常见错误诊断

问题	原因	解决方案
编译失败	缺少g++编译器	Linux用户运行`sudo apt install g++`，Mac用户用`brew install gcc`，Windows用户安装MinGW或Cygwin并配置环境变量
程序运行时内存不足	数据量过大或内存限制设置不合理	使用`-M`参数限制内存使用，或分批次处理数据
聚类结果中存在过多单序列簇	相似度阈值设置过高	降低相似度阈值，如将蛋白质序列的阈值从0.95调整为0.9
输出文件不完整	输入文件格式错误或程序异常终止	检查输入文件是否为正确的FASTA格式，重新运行程序
运行速度慢	线程数设置过少	增加线程数（-T），但不超过CPU核心数

性能优化指南

硬件维度

CPU：选择多核心CPU，CD-HIT支持多线程并行计算，核心数越多，计算速度越快。
内存：增加内存容量，避免因内存不足导致程序频繁交换数据，影响性能。对于大规模数据，建议内存不低于8GB。
存储：使用固态硬盘（SSD）存储数据，提高文件读写速度。

参数维度

线程数（-T）：根据CPU核心数合理设置，一般设置为CPU核心数的80%左右，既能充分利用CPU资源，又不会因线程过多导致资源竞争。
内存限制（-M）：根据可用内存和数据量设置，建议设置为可用内存的80%，避免内存溢出。
相似度阈值（-c）：在满足研究需求的前提下，适当提高相似度阈值可减少计算量，提高速度。

流程维度

数据预处理：在聚类前对序列进行质量过滤，如去除短序列、低质量序列等，减少数据量。
分阶段聚类：先用较低的相似度阈值进行粗聚类，再对得到的代表序列用较高的阈值进行精细聚类，提高聚类效率。
结果复用：对于相似的数据集，可复用之前的聚类结果，避免重复计算。

初学者常见认知误区

误区一：认为相似度阈值越高越好

实际上，相似度阈值应根据研究目的设置。过高的阈值可能导致聚类结果中簇的数量过多，失去去冗余的意义；过低的阈值可能合并过多不同的序列，影响分析准确性。

误区二：忽略序列质量对聚类结果的影响

原始序列中可能存在低质量序列、短序列等，这些序列会干扰聚类结果。在聚类前应进行质量过滤，提高聚类效果。

误区三：不了解CD-HIT的适用范围

CD-HIT适用于蛋白质和核酸序列的聚类去冗余，但对于一些特殊类型的序列（如长序列、结构序列等），可能需要结合其他工具使用。

命令参数速查表

参数	功能	常用值
-i	输入序列文件	input.fasta
-o	输出文件前缀	output
-c	相似度阈值	蛋白质：0.9，核酸：0.95-0.97
-T	线程数	CPU核心数的80%左右
-M	内存限制（MB）	8000（8GB）
-n	字长，用于核酸序列	10（默认）
-d	输出序列的描述信息长度	0（默认，不输出描述信息）
-s	序列长度差异阈值	0.0（默认，不限制）

真实科研案例分析流程

案例一：蛋白质序列去冗余构建数据库

数据准备：获取原始蛋白质序列文件（uniprot_raw.fasta）。
质量过滤：使用seqkit过滤长度小于50的序列：

seqkit seq -m 50 uniprot_raw.fasta > uniprot_filtered.fasta

聚类分析：

./cdhit -i uniprot_filtered.fasta -o uniprot_clustered -c 0.9 -T 8 -M 8000

结果评估：使用clstr_size_stat.pl统计簇大小分布，检查聚类效果。

案例二：宏基因组16S rRNA序列OTU分析

数据获取：得到16S rRNA测序数据（16s_data.fasta）。
聚类生成OTU：

./cdhit-est -i 16s_data.fasta -o otu_result -c 0.97 -T 4 -M 4000

OTU表格生成：使用clstr_2_OTU_table.pl生成OTU表格：

clstr_2_OTU_table.pl otu_result.clstr > otu_table.txt

群落结构分析：结合OTU表格进行微生物群落结构分析。

案例三：转录组可变剪切异构体聚类

转录本数据准备：获取转录组测序得到的转录本序列（transcripts.fasta）。
异构体聚类：

./cdhit-est -i transcripts.fasta -o isoform_clusters -c 0.9 -n 10 -T 6 -M 6000

结果分析：通过分析聚类结果，识别不同的可变剪切异构体。

不同相似度阈值的聚类效果差异对比

当相似度阈值为0.9时，聚类得到的簇数量相对较少，每个簇包含的序列较多，去冗余程度较高，但可能会合并一些相似度稍低的序列；当阈值为0.95时，簇数量增加，每个簇的序列数减少，保留了更多的序列多样性；当阈值为0.97时，簇数量进一步增加，对序列的区分更加精细。在实际应用中，应根据研究需求选择合适的阈值。例如，在构建数据库时，可选择较高的阈值以减少数据量；在进行精细分析时，可选择较低的阈值以保留更多细节。

通过以上内容的学习，相信你已经对CD-HIT序列聚类工具的使用有了全面的了解。在实际应用中，要根据具体情况灵活调整参数，不断实践和探索，才能充分发挥CD-HIT在生物信息学分析中的作用。使用CD-HIT发表研究成果时，请记得引用原作者的工作，尊重科研贡献者的劳动成果。

cdhit

Automatically exported from code.google.com/p/cdhit

项目地址：https://gitcode.com/gh_mirrors/cd/cdhit

登录后查看全文