解决samtools排序时遇到的"unrecognized type 'e'"错误

2025-07-09 12:36:43作者：咎岭娴Homer

问题背景

在使用samtools进行SAM文件排序时，用户遇到了一个特定错误："[E::aux_parse] unrecognized type 'e'"，随后程序终止。这种情况通常发生在处理来自新型测序平台的数据时，特别是当数据包含非标准的元信息时。

错误原因分析

这个错误的核心在于SAM文件格式规范。SAM/BAM格式严格定义了辅助标签(TAG)的格式，要求每个标签必须遵循"TAG:TYPE:VALUE"的结构，其中TYPE必须是预定义的类型标识符之一(如i表示整数，f表示浮点数等)。而错误信息中提到的类型'e'并不在标准类型列表中。

经过调查，发现这个问题源于测序数据中的fastq头行包含了额外的元信息，如：

@f2245537-4fb2-4323-809d-c38570e76b35 parent_read_id=f2245537-4fb2-4323-809d-c38570e76b35 model_version_id=dna_r10.4.1_e8.2_400bps_sup@v4.3.0 mean_qscore=17 barcode=barcode02

当使用minimap2进行比对时，如果启用了-y选项，这些额外的元信息会被尝试转换为SAM格式的辅助标签，但由于格式不规范(特别是包含非标准类型'e')，导致samtools无法正确解析。

解决方案

修改比对参数：最简单的解决方案是在使用minimap2进行比对时，不启用-y选项。这个选项原本用于将fastq头信息转换为SAM辅助标签，但对于包含非标准信息的头行，反而会导致问题。
预处理fastq文件：如果确实需要保留部分元信息，可以在比对前预处理fastq文件，清理或标准化头行信息。例如，可以使用简单的文本处理工具截断头行中的额外信息。
使用更新的工具版本：确保使用的是最新版本的samtools和minimap2，因为新版本可能对非标准输入有更好的容错处理。