Samtools mpileup工具中BAQ算法对测序数据深度计算的影响分析

2025-07-09 21:50:43作者：翟萌耘Ralph

在生物信息学分析中，samtools mpileup是一个广泛使用的工具，用于计算基因组每个位置的测序深度和变异检测。然而，用户在使用过程中可能会遇到测序深度计算结果与预期不符的情况，这往往与工具内置的BAQ（Base Alignment Quality）算法有关。

问题现象

用户在使用samtools mpileup时发现，基因组起始位置的测序深度计算结果（17,928个碱基）远低于IGV可视化工具中观察到的实际覆盖情况。具体表现为：

不使用参考基因组时仅报告7,663个碱基
使用参考基因组时仅报告26个碱基

原因分析

经过深入调查，发现这种现象主要由三个因素共同导致：

BAQ算法的影响：samtools默认启用的BAQ算法会重新计算比对质量值，特别是在序列起始位置，该算法会将许多碱基的质量值设为0。
质量阈值过滤：samtools默认使用-Q13参数，会过滤掉质量值低于13的碱基。当BAQ将质量值设为0后，这些碱基自然就被过滤掉了。
深度限制：工具默认设置了8000的最大深度限制，超过此值的区域会被截断。

解决方案

针对上述问题，可以通过调整参数组合来获得更符合预期的结果：

禁用BAQ算法：使用-B参数可以关闭BAQ计算

samtools mpileup -B -f reference.fa input.bam

调整质量阈值：使用-Q0参数可以显示所有碱基，不考虑质量值

samtools mpileup -Q0 -f reference.fa input.bam

提高深度限制：使用-d参数设置更大的深度上限

samtools mpileup -d 99999 -f reference.fa input.bam

禁用重叠去除：使用-x参数可以保留重叠区域的重复计数（适用于某些特定分析场景）

最佳实践建议

对于现代测序数据分析，特别是使用高质量测序平台（如Illumina NovaSeq等）时，建议：

默认禁用BAQ算法（使用-B参数），因为现代测序技术的碱基质量已经显著提高
根据实际需求合理设置质量阈值，而不是盲目使用默认值
对于高深度测序数据，务必调整最大深度参数以避免数据截断
注意重叠去除（-x参数）的使用场景，在需要精确计数时应谨慎启用

技术背景

BAQ算法最初设计是为了处理早期测序数据中比对不确定性的问题，它会根据周围序列的比对情况动态调整每个碱基的质量值。然而，随着测序技术的进步，这种校正可能反而会引入偏差，特别是在序列起始和终止位置。

samtools

Tools (written in C using htslib) for manipulating next-generation sequencing data

项目地址：https://gitcode.com/gh_mirrors/sa/samtools

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781