Seurat中AggregateExpression函数计算差异表达时的注意事项

2025-07-02 14:29:06作者：廉彬冶Miranda

概述

在使用Seurat进行单细胞数据分析时，AggregateExpression函数是一个常用的伪批量分析工具。然而，许多用户在使用该函数进行差异表达分析时，可能会遇到一些计算结果与预期不符的情况。本文将深入探讨AggregateExpression函数的工作原理，分析可能遇到的问题，并提供解决方案。

问题现象

用户在比较Seurat的AggregateExpression函数与edgeR的伪批量分析结果时发现，某些基因的fold change方向出现了矛盾。具体表现为：

当使用全部基因进行AggregateExpression分析时，某些基因（如Ltf）在表达量较高的组别中反而计算出负的fold change
当仅使用少量基因进行AggregateExpression分析时，同一基因的fold change方向恢复正常
使用不同数据格式（原始计数、标准化数据、缩放数据）计算得到的fold change值不一致

原因分析

1. 标准化过程的特征依赖性

AggregateExpression函数在内部执行标准化操作（类似于NormalizeData函数），但关键的是，这个标准化过程是基于用户提供的特征（基因）子集进行的。这意味着：

使用不同数量的基因进行标准化会导致不同的标准化因子
标准化后的表达值会随着输入基因数量的变化而变化
这解释了为什么使用全部基因和少量基因会得到不同的fold change方向

2. 伪计数处理的影响

在计算平均表达量时，常用的公式会涉及伪计数（pseudocount）的处理。原始公式中除以样本数量的操作可能导致计算结果出现偏差：

mean.fxn_norm <- function(x){log(x = (rowSums(x = expm1(x = x)) + 1)/NCOL(x), base = 2)}

这种处理方式在某些情况下会导致表达量较高的组别计算出更低的平均值，从而产生负的fold change。

3. 细胞数量和测序深度的影响

伪批量分析中，不同组的细胞数量和测序深度差异会显著影响结果：

细胞数量多的组别可能表现出更高的总计数，即使单个细胞的表达量较低
测序深度大的样本会人为提高基因的表达水平
这些因素需要通过适当的标准化来校正

解决方案

1. 推荐的分析流程

使用全部基因进行AggregateExpression分析：确保标准化过程基于完整的基因集，避免因特征子集选择导致的偏差
后续再筛选感兴趣的基因：在完成伪批量分析后，再对结果进行子集筛选
使用适当的统计检验：推荐使用专门的差异表达分析工具（如DESeq2、edgeR等）而非直接从聚合计数计算fold change

2. 修正的均值计算函数

对于需要手动计算fold change的情况，建议修改均值计算函数以避免伪计数处理带来的问题：

mean.fxn_norm <- function(x){log(x = (rowMeans(x = expm1(x = x)) + 0.000001), base = 2)}

这个修改版本：

使用rowMeans替代rowSums/NCOL
采用更小的伪计数值(0.000001)
能够更准确地反映表达量的真实差异

3. 数据格式选择建议

原始计数：适合输入专门的差异表达分析工具
标准化数据：用于探索性分析和可视化
缩放数据：主要用于降维和聚类分析

不同数据格式计算得到的fold change确实会存在差异，这是由各自的计算方法和标准化过程决定的。建议根据分析目的选择合适的数据格式。

最佳实践

始终记录使用的基因集合和参数设置
对关键结果进行交叉验证（如同时使用Seurat和edgeR/DESeq2）
注意细胞数量和测序深度的平衡
对标准化过程保持透明和理解

结论

Seurat的AggregateExpression函数是一个强大的伪批量分析工具，但需要正确理解其标准化过程和计算方法。通过采用本文推荐的最佳实践和修正方案，用户可以避免fold change计算中的常见陷阱，获得更可靠的差异表达分析结果。记住，在单细胞数据分析中，方法的选择和参数的设置往往比工具本身更重要。

seurat

R toolkit for single cell genomics

项目地址：https://gitcode.com/gh_mirrors/se/seurat

登录后查看全文