Seurat中FindMarkers函数的全特征分析技巧

2025-07-02 22:03:50作者：昌雅子Ethen

背景介绍

在单细胞RNA测序数据分析中，差异表达基因(DEG)分析是一个关键步骤。Seurat作为单细胞分析的主流工具包，其FindMarkers函数被广泛用于识别不同细胞群体间的差异表达基因。然而，许多用户在使用过程中会遇到一个常见问题：默认情况下，FindMarkers只会报告在两组细胞中表达量均大于零的基因的统计结果。

问题本质

这种默认行为在实际分析中可能带来一些限制。例如，当用户希望进行后续的基因集富集分析(GSEA)时，通常需要所有基因的fold change值，而不仅仅是那些在两组中都有表达的基因。这种"动态基因集"的使用可能导致不同比较组间的富集分数缺乏可比性。

解决方案

通过深入研究Seurat文档和源代码，我们发现可以通过调整两个关键参数来解决这个问题：

min.pct = 0：取消对基因在细胞群中表达比例的最低要求
logfc.threshold = 0：取消对log fold change变化阈值的要求

这两个参数的组合使用可以强制FindMarkers函数返回所有基因的差异表达统计结果，无论它们在比较组中的表达情况如何。

实际应用

这种设置特别适用于以下场景：

需要完整基因列表进行GSEA分析
希望比较不同细胞类型间的全局表达模式
需要构建包含所有基因的表达热图
进行通路分析时需要完整的背景基因集

注意事项

虽然这种设置提供了更全面的数据，但也需要考虑：

计算量会增加，特别是对于大型数据集
结果中会包含许多低表达或无变化的基因，需要后续过滤
统计显著性可能需要更严格的多重检验校正

代码示例

# 标准差异表达分析(仅返回显著变化的基因)
markers <- FindMarkers(object = seurat_obj, 
                      ident.1 = "CellTypeA", 
                      ident.2 = "CellTypeB")

# 返回所有基因的差异表达结果
all_markers <- FindMarkers(object = seurat_obj,
                          ident.1 = "CellTypeA",
                          ident.2 = "CellTypeB",
                          min.pct = 0,
                          logfc.threshold = 0)

总结

理解并合理设置FindMarkers函数的参数对于获取符合分析需求的差异表达结果至关重要。通过调整min.pct和logfc.threshold参数，用户可以灵活控制输出结果的基因范围，满足不同下游分析的需求。这一技巧特别适用于需要完整基因表达谱的研究场景，为后续的生物信息学分析提供了更全面的数据基础。

seurat

R toolkit for single cell genomics

项目地址：https://gitcode.com/gh_mirrors/se/seurat

登录后查看全文