Scanpy中删除基因后仍出现在差异分析结果的原因与解决方案

2025-07-04 14:26:12作者：柯茵沙

项目地址：https://gitcode.com/gh_mirrors/sca/scanpy

问题背景

在使用Scanpy进行单细胞RNA测序数据分析时，研究人员经常需要从数据集中移除特定基因（如报告基因EYFP），然后进行差异表达分析。然而，许多用户发现即使已经删除了目标基因，该基因仍然会出现在rank_genes_groups函数的输出结果中。

问题原因分析

这一现象的根本原因在于Scanpy的数据结构设计。Scanpy的AnnData对象包含一个特殊的raw属性，用于存储原始未处理的数据。当用户执行adata = adata[:, adata.var_names != 'EYFP']这样的操作时，实际上只修改了主数据矩阵（adata.X），而adata.raw中的原始数据保持不变。

默认情况下，sc.tl.rank_genes_groups函数会使用raw属性中的数据（参数use_raw=True）进行计算。因此，即使从主数据中删除了基因，只要该基因仍然存在于raw数据中，它仍然会被差异分析算法检测到。

解决方案

方案一：完全删除raw数据

# 将原始数据复制到主数据矩阵
adata.X = adata.raw.X
# 删除raw属性
del adata.raw
# 删除目标基因
adata2 = adata[:, adata.var_names != 'EYFP']
# 进行差异分析，明确指定不使用raw数据
sc.tl.rank_genes_groups(adata2, groupby='leiden_r1', 
                       use_raw=False,
                       key_added='rank_genes_r1')

方案二：仅修改差异分析参数

如果希望保留原始数据，可以简单地在差异分析时指定不使用raw数据：

adata2 = adata[:, adata.var_names != 'EYFP']
sc.tl.rank_genes_groups(adata2, groupby='leiden_r1', 
                       use_raw=False,
                       key_added='rank_genes_r1')

方案三：从raw数据中删除基因

更精确的做法是创建一个不包含目标基因的新raw数据：

# 获取不包含目标基因的索引
keep_genes = adata.var_names != 'EYFP'
# 创建新的AnnData对象作为raw数据
adata.raw = adata[:, keep_genes].copy()
# 删除主数据中的目标基因
adata2 = adata[:, keep_genes]
# 进行差异分析
sc.tl.rank_genes_groups(adata2, groupby='leiden_r1',
                       key_added='rank_genes_r1')