Scanpy中Leiden聚类结果不一致问题的技术分析

2025-07-04 13:51:02作者：柏廷章Berta

问题背景

在生物信息学单细胞数据分析工具Scanpy的使用过程中，用户报告了一个关于Leiden聚类结果不一致的问题。具体表现为：在Scanpy 1.9.3和1.10.4版本中，相同的输入数据使用Leiden聚类算法会得到不同的结果，而理论上这两个版本的默认行为应该保持一致。

问题本质

经过深入分析，发现问题的根源在于Scanpy内部对重复数据处理方式的变化。在1.10.4版本中，Scanpy对邻居搜索(nearest neighbor search)的实现进行了重构，从使用sklearn.metrics.pairwise_distances改为使用sklearn.neighbors.KNeighborsTransformer。这一变化导致了对重复数据的处理方式发生了改变。

技术细节解析

邻居搜索算法差异：
- 旧版本(1.9.3)使用pairwise_distances计算所有成对距离
- 新版本(1.10.4)使用近似最近邻算法，效率更高但处理重复数据时行为不同
重复数据处理：
- 当数据中存在完全相同的行(重复样本)时，不同算法对"哪个样本更近"的判断可能不同
- 旧版本在某些平台(如macOS ARM64)上能产生稳定结果
- 新版本对重复数据的处理更加严格，可能导致邻居关系变化
影响范围：
- 主要影响存在重复样本的数据集
- 可能导致邻居图和后续聚类结果变化
- 对无重复数据的分析通常没有影响

解决方案

对于需要严格可重复性的用户，可以采用以下方法：

数据预处理：
- 检查并移除数据中的重复样本
- 对数据进行轻微扰动以避免完全相同的行

使用特定转换器：

from sklearn.metrics import pairwise_distances
from scanpy.neighbors import _get_indices_distances_from_dense_matrix, _get_sparse_matrix_from_indices_distances

class PairwiseDistancesTransformer:
    def __init__(self, n_neighbors=15, metric="euclidean"):
        self.n_neighbors = n_neighbors
        self.metric = metric
        
    def fit_transform(self, X):
        d_arr = pairwise_distances(X, metric=self.metric)
        ind, dist = _get_indices_distances_from_dense_matrix(d_arr, self.n_neighbors+1)
        return _get_sparse_matrix_from_indices_distances(ind, dist, keep_self=True)