Seurat数据集中基于特定基因表达的细胞筛选方法

2025-07-02 03:58:14作者：魏献源Searcher

概述

在单细胞RNA测序数据分析中，经常需要根据特定基因的表达情况对细胞进行筛选。本文介绍如何在Seurat数据集中筛选表达特定活动依赖性基因的细胞，并进一步分析这些细胞的差异表达基因。

筛选表达特定基因的细胞

Seurat提供了WhichCells函数，可以方便地筛选出表达特定基因的细胞。以下是一个典型的使用案例：

active_cells_excitatory_subset <- WhichCells(
  object = seurat.obj_combined_filtered_excitatiory,
  expression = OSTN > 0 | BDNF > 0 | FOS > 0 | 
              NPAS4 > 0 | EGR1 > 0 | LINC00473 > 0 | 
              ZNF331 > 0 | PER1 > 0,
  slot = 'counts'
)

这段代码会返回一个包含所有表达至少一个活动依赖性基因(OSTN、BDNF、FOS、NPAS4、EGR1、LINC00473、ZNF331、PER1)的细胞名称列表。

差异表达基因分析

获得目标细胞列表后，可以使用FindMarkers函数进行差异表达基因分析，比较这些细胞与其余细胞的基因表达差异：

markers <- FindMarkers(
  seurat.obj_combined_filtered_excitatiory,
  ident.1 = active_cells_excitatory_subset,
  ident.2 = setdiff(Cells(seurat.obj_combined_filtered_excitatiory), 
                    active_cells_excitatory_subset)
)

技术要点解析

WhichCells函数参数说明：
- object：Seurat对象
- expression：筛选条件，可以使用基因名和逻辑运算符
- slot：指定使用counts数据而非标准化后的数据
FindMarkers函数注意事项：
- 比较两组细胞时，需要使用ident.1和ident.2参数
- setdiff函数用于获取对照组细胞(不表达目标基因的细胞)
数据预处理建议：
- 在进行此类分析前，建议先完成基本的质量控制
- 确保基因名大小写与数据集一致
- 考虑使用rownames(seurat_obj)检查所有基因名