Seurat中AggregateExpression函数在组间差异分析中的应用

2025-07-01 08:49:41作者：晏闻田Solitary

概述

在单细胞RNA测序数据分析中，Seurat是一个广泛使用的R语言工具包。当我们需要比较不同组别（如肿瘤vs正常组织）之间的基因表达差异时，AggregateExpression函数提供了一种有效的"伪批量"分析方法。本文将详细介绍如何正确使用AggregateExpression进行组间比较分析。

核心问题

许多用户在尝试使用AggregateExpression进行组间比较时会遇到两个常见误区：

直接按组别（如"肿瘤"和"正常"）聚合所有细胞
忽略样本ID中的特殊字符（如下划线）导致后续分析失败

正确使用流程

1. 数据预处理

首先需要对单细胞数据进行标准化处理：

object_norm <- NormalizeData(OBJECT, 
                           normalization.method = "LogNormalize", 
                           assay = "RNA")

2. 样本级聚合表达

关键步骤是按样本ID而非直接按组别进行聚合：

seurat_aggregated <- AggregateExpression(
    object = object_norm,
    group.by = "SampleID",  # 按样本ID聚合
    assays = "RNA",
    slot = "data",
    return.seurat = TRUE
)

3. 处理样本ID特殊字符

Seurat会自动将下划线(_)转换为连字符(-)，需要确保后续分析使用转换后的ID：

# 修正样本ID中的特殊字符
colnames(seurat_aggregated) <- gsub("_", "-", colnames(seurat_aggregated))

4. 整合元数据

聚合表达数据后，需要将样本信息与组别信息合并：

# 聚合元数据
agg_metadata <- aggregate(object_norm@meta.data, 
                        by = list(Sample = object_norm$SampleID), 
                        FUN = unique)

# 仅保留必要列
agg_metadata <- agg_metadata[, c("Sample", "Group")]

# 合并元数据
seurat_aggregated <- AddMetaData(seurat_aggregated, 
                               metadata = agg_metadata,
                               col.name = c("Sample", "Group"))

5. 连接数据层

确保所有数据层正确连接：

seurat_aggregated <- JoinLayers(seurat_aggregated)

6. 执行差异表达分析

最后进行组间差异分析：

Idents(seurat_aggregated) <- "Group"
markers <- FindMarkers(seurat_aggregated, 
                     ident.1 = "tumor",
                     ident.2 = "normal",
                     assay = "RNA",
                     slot = "data",
                     test.use = "wilcox")