Samtools中CRAM格式转换时丢失Casava标签问题的技术分析

2025-07-09 07:04:16作者：翟江哲Frasier

问题背景

在使用Samtools进行FASTQ到CRAM格式转换时，发现了一个关于Casava标签丢失的问题。具体表现为：当通过FASTQ→uCRAM→FASTQ的转换流程时，原始FASTQ中的条形码标签（如"ATGAGTCG+AACTAGGC"）会被替换为"0"；而如果通过FASTQ→uBAM→FASTQ或FASTQ→uCRAM→uBAM→FASTQ的流程，则能正确保留原始标签。

技术细节分析

这个问题源于CRAM格式的特性及其在Samtools中的实现方式：

CRAM的列式存储特性：CRAM格式采用列式存储结构，不同于BAM的行式存储。这种设计允许选择性解码特定字段以提高效率。
标签解码优化：Samtools在处理CRAM文件时，默认不会解码所有标签字段，只有在明确需要时才会解码。这种优化虽然提高了性能，但在某些情况下会导致标签信息丢失。
fastq命令行为差异：当使用samtools fastq命令时，--index-format选项需要访问标签信息，但当前的实现没有自动触发标签解码。

解决方案

目前有两种临时解决方案：

显式指定标签：使用-T BC参数强制解码BC标签

samtools fastq -T BC -i --index-format i8i8 -1 out1.fq -2 out2.fq in.cram

通用标签解码：使用-T __（双下划线）解码所有标签，同时避免修改文件头
```
samtools fastq -T __ -i --index-format i8i8 -1 out1.fq -2 out2.fq in.cram
```

根本修复

Samtools开发团队已经识别到这是代码优化过程中的一个疏忽，并提交了修复补丁。新版本将确保--index-format选项自动触发必要的标签解码过程。

技术启示

这个问题揭示了格式转换过程中几个重要技术点：

格式特性的理解：不同压缩格式（BAM/CRAM）有着不同的内部结构和优化策略
数据完整性的保证：在进行格式转换时，需要特别注意元数据的保留情况
工具行为的差异：即使是同一工具的不同命令，对数据处理的方式也可能存在差异

对于生物信息学分析人员，建议在进行关键数据格式转换后，总是进行数据完整性的验证，特别是元数据部分。同时，了解所用工具的内部机制有助于快速定位和解决类似问题。

samtools

Tools (written in C using htslib) for manipulating next-generation sequencing data

项目地址：https://gitcode.com/gh_mirrors/sa/samtools

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

359

219

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

C++

162