Seurat项目中SCTransform后计算线粒体基因百分比的注意事项

2025-07-02 20:47:57作者：何将鹤

问题背景

在使用Seurat进行单细胞数据分析时，计算线粒体基因百分比(percent.mt)是一个常见的质量控制步骤。然而，在使用SCTransform方法进行数据归一化后，部分用户可能会遇到计算出的percent.mt值超过100%的异常情况。本文将深入分析这一现象的原因，并提供正确的操作流程。

问题现象

当用户执行以下操作流程时：

合并多个Seurat对象
使用SCTransform进行归一化
调用PrepSCTFindMarkers准备标记基因分析
在SCT assay上计算percent.mt

部分细胞会出现percent.mt值超过100%的情况，这显然不符合生物学常识。

原因分析

经过深入调查，发现问题的根源在于PrepSCTFindMarkers函数会更新SCT assay中的counts值，但不会同步更新meta.data中的nCount_SCT值。这种不一致性导致了百分比计算的异常。

具体来说：

PercentageFeatureSet函数计算percent.mt时，使用公式：(线粒体基因counts总和)/(nCount_SCT)*100
PrepSCTFindMarkers更新了counts但未更新nCount_SCT
当counts增加而nCount_SCT未变时，计算结果就可能超过100%

解决方案

正确的操作顺序应该是：

合并Seurat对象
执行SCTransform归一化
在SCT assay上计算percent.mt
最后调用PrepSCTFindMarkers准备标记基因分析

代码示例：

# 正确操作顺序
s_merged <- merge(x = merge_list[[1]], y = merge_list[2:3]) %>%
  SCTransform(assay = "RNA", variable.features.n = 3000)

s_merged[["percent.mt"]] <- PercentageFeatureSet(s_merged, 
                                pattern = "^mt-", 
                                assay = "SCT")

s_merged <- PrepSCTFindMarkers(object = s_merged)

最佳实践建议

assay选择：虽然可以在SCT assay上计算percent.mt，但更推荐使用原始RNA assay进行计算，这样结果更稳定可靠。
操作顺序：在Seurat分析流程中，质量指标计算应尽可能早进行，特别是在任何可能改变counts值的操作之前。
数据验证：计算percent.mt后，建议检查最大值是否合理，并绘制分布图观察异常值。
版本控制：不同版本的Seurat可能在细节处理上有差异，建议记录使用的软件版本。

总结

在单细胞数据分析中，理解每个函数对数据结构的改变至关重要。SCTransform和PrepSCTFindMarkers等高级函数虽然强大，但也可能引入一些非直观的副作用。通过遵循正确的操作顺序和理解底层数据变化，可以避免percent.mt计算异常等问题，确保分析结果的可靠性。

对于新手用户，建议在进行复杂分析前，先在小数据集上测试关键步骤，验证中间结果的合理性，再应用到完整分析流程中。

seurat

R toolkit for single cell genomics

项目地址：https://gitcode.com/gh_mirrors/se/seurat

登录后查看全文