ScanPy中Leiden聚类结果不一致问题的技术分析与解决方案

2025-07-04 00:31:05作者：翟江哲Frasier

项目地址：https://gitcode.com/gh_mirrors/sca/scanpy

问题背景

在生物信息学单细胞数据分析中，ScanPy作为基于Python的重要分析工具，其Leiden聚类算法的稳定性直接影响研究结果的可重复性。近期用户报告在ScanPy 1.9.3和1.10.4版本间，相同的输入数据却产生了不同的聚类结果，这对依赖稳定输出的科研工作构成了挑战。

技术根源分析

经过核心开发团队的深入调查，发现该问题涉及多个技术层面：

邻居搜索算法变更：ScanPy 1.10版本重构了邻居搜索实现，从直接使用sklearn.metrics.pairwise_distances转向了sklearn.neighbors.KNeighborsTransformer。这种底层计算引擎的变更虽然提升了性能，但在处理特殊数据时会产生差异。
重复数据处理差异：新版算法对包含完全重复行的数据更为敏感。当输入矩阵中存在完全相同的观测行时，不同版本对"距离为零"情况的处理逻辑存在细微差别。
随机数生成稳定性：尽管设置了随机种子，但NumPy随机数生成器在不同环境下的实现差异仍可能导致结果波动，这在科学计算中是一个普遍存在的挑战。

解决方案

针对这一问题，ScanPy团队提供了多层次的解决方案：

1. 数据预处理建议

# 检查并移除完全重复的观测行
import numpy as np
from scipy.sparse import csr_matrix

unique_rows, inverse = np.unique(adata.X, axis=0, return_inverse=True)

2. 使用兼容性接口

对于必须保持结果一致性的场景，可以使用特制的转换器：

from sklearn.base import TransformerMixin

class PairwiseDistancesTransformer(TransformerMixin):
    """确保与旧版本一致的邻居搜索实现"""
    def __init__(self, n_neighbors=15, metric='euclidean'):
        self.n_neighbors = n_neighbors
        self.metric = metric
        
    def fit(self, X):
        from sklearn.metrics import pairwise_distances
        self.distances_ = pairwise_distances(X, metric=self.metric)
        return self
    
    def transform(self, X=None):
        ind, dist = _get_indices_distances_from_dense_matrix(
            self.distances_, self.n_neighbors+1)
        return _get_sparse_matrix_from_indices_distances(ind, dist)