Scanpy中Leiden聚类与UMAP可视化结果不一致问题解析

2025-07-04 13:06:54作者：冯爽妲Honey

在使用单细胞分析工具Scanpy时，用户有时会遇到Leiden聚类结果与UMAP可视化不一致的情况。本文将通过一个典型案例，深入分析这一现象背后的技术原理，并提供解决方案。

问题现象

用户在使用Scanpy进行单细胞数据分析时，发现以下现象：

首次运行Leiden聚类后，UMAP可视化显示出预期的细胞群分布变化
后续尝试复现相同结果时，UMAP可视化却保持了未聚类前的原始分布形态
尽管使用了相同的代码和参数设置，结果却出现了差异

技术原理分析

1. 计算流程的误解

许多用户存在一个常见误解，认为Leiden聚类会直接影响UMAP的可视化结果。实际上，这两个步骤是相互独立的：

Leiden聚类：仅对细胞进行离散分组，输出每个细胞的簇标签
UMAP降维：基于细胞间的相似性关系生成二维坐标

两者都依赖于sc.pp.neighbors()计算得到的细胞邻接图，但彼此不会直接影响对方的计算结果。

2. 结果不一致的根本原因

经过分析，这种不一致性主要源于以下几个方面：

邻接图计算的非确定性：
- 邻接图构建过程受多种因素影响
- 不同机器、不同包版本或不同CPU线程数都会导致结果差异
- 即使环境相同，某些数值计算也可能存在微小差异
UMAP的重新计算：
- 每次调用sc.tl.umap()都会生成新的UMAP布局
- 如果未保存随机种子，结果会有差异
流程顺序的影响：
- 正确的分析流程应该是先计算邻接图，再分别进行聚类和UMAP降维
- 流程顺序错误会导致结果不一致

解决方案

要确保结果的可重复性，建议采取以下措施：

固定随机种子：

import scanpy as sc
import numpy as np

np.random.seed(42)  # 固定随机种子
sc.settings.verbosity = 3  # 设置日志级别

合理组织分析流程：

# 计算邻接图
sc.pp.neighbors(adata, n_pcs=30, n_neighbors=20)

# 计算UMAP
sc.tl.umap(adata)

# 进行聚类
sc.tl.leiden(adata, resolution=0.2)

# 可视化
sc.pl.umap(adata, color='leiden')