Samtools工具中BAM文件样本名修改问题的解决方案

2025-07-09 01:35:17作者：廉皓灿Ida

在生物信息学分析中，BAM文件是存储测序比对结果的常用格式。每个BAM文件都包含样本信息，这些信息存储在@RG头部的SM标签中。本文将详细介绍如何使用samtools工具正确修改BAM文件中的样本名称。

问题背景

用户在使用samtools 1.20版本时，尝试通过addreplacerg命令修改BAM文件中的样本名称（SM标签），但发现修改后样本名显示异常。原始BAM文件包含10个样本，每个样本都有独立的@RG头部信息。

问题分析

通过分析用户的操作过程，发现关键问题在于命令参数格式：

用户使用单引号包含所有RG标签信息
各标签间未使用正确的制表符分隔
这导致samtools将所有内容错误解析为ID标签的值

解决方案

方法一：多参数方式（推荐）

最可靠的方法是分多个-r参数传递各个标签：

samtools addreplacerg \
    -r "ID:ANormal_group" \
    -r "LB:paired" \
    -r "PL:illumina" \
    -r "SM:Assumed_Normal" \
    -r "PU:barcode" \
    -m overwrite_all \
    --threads 24 \
    -o input.RG.bam \
    input.bam

这种方法优点：

无需处理制表符
参数结构清晰
不易出错

方法二：使用制表符分隔

如需使用单参数方式，必须确保各标签间用制表符分隔：

TAB=$(printf "\t")
samtools addreplacerg \
    -r "ID:ANormal_group${TAB}LB:paired${TAB}PL:illumina${TAB}SM:Assumed_Normal${TAB}PU:barcode" \
    -m overwrite_all \
    --threads 24 \
    -o input.RG.bam \
    input.bam

验证方法

修改完成后，可通过以下命令验证结果：

# 查看RG头部信息
samtools view -H input.RG.bam | grep "@RG"

# 查看样本列表
samtools samples input.RG.bam

技术要点

BAM文件格式要求@RG头部各标签间必须用制表符分隔
命令行中直接输入制表符可能被shell解释为空格
addreplacerg命令的-m参数控制替换模式：
- overwrite_all：替换所有现有RG信息
- overwrite_matching：仅替换匹配ID的RG信息

总结

修改BAM文件样本信息是常见的生物信息学操作。通过正确使用samtools addreplacerg命令，特别是采用多参数方式，可以确保样本信息被准确修改。建议用户优先使用多参数方式，以避免制表符处理带来的问题。

samtools

Tools (written in C using htslib) for manipulating next-generation sequencing data

项目地址：https://gitcode.com/gh_mirrors/sa/samtools

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

350

203

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Samtools工具中BAM文件样本名修改问题的解决方案

问题背景

问题分析

解决方案

方法一：多参数方式（推荐）

方法二：使用制表符分隔

验证方法

技术要点

总结

热门内容推荐

最新内容推荐

项目优选

Samtools工具中BAM文件样本名修改问题的解决方案

问题背景

问题分析

解决方案

方法一：多参数方式（推荐）

方法二：使用制表符分隔

验证方法

技术要点

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选