Scanpy中Leiden和Louvain聚类参数存储问题的技术分析

2025-07-04 12:23:11作者：范靓好Udolf

在单细胞RNA测序数据分析中，Scanpy是一个广泛使用的Python工具包。它提供了多种聚类算法，包括Leiden和Louvain方法，用于识别细胞亚群。然而，最近发现了一个关于聚类参数存储的重要问题，这可能会影响用户进行多参数聚类分析的结果。

问题背景

当用户使用Scanpy的sc.tl.leiden()或sc.tl.louvain()函数进行聚类分析时，可以通过key_added参数指定存储结果的键名。这在需要比较不同分辨率参数下的聚类结果时特别有用。例如，用户可以分别使用0.8和1.2的分辨率参数运行Leiden算法，并将结果存储在"leiden_0.8"和"leiden_1.2"键下。

然而，当前实现中存在一个关键问题：虽然聚类结果本身被正确地存储在用户指定的键下，但算法使用的参数却被硬编码存储在固定的"leiden"或"louvain"键中，而不是与结果一起存储在用户指定的键下。

技术细节

这个问题源于Scanpy源代码中的实现方式。对于Leiden算法，参数被存储在adata.uns["leiden"]["params"]中；对于Louvain算法，参数被存储在adata.uns["louvain"]["params"]中。无论用户通过key_added参数指定什么键名，参数总是被写入这些固定的位置。

这种实现会导致以下问题：

当用户使用不同参数多次运行聚类算法时，后一次运行的参数会覆盖前一次的参数
用户无法通过结果键直接访问生成该结果的参数
参数与结果分离，增加了结果追溯的难度

影响分析

这个问题对以下场景有显著影响：

参数扫描：当用户需要测试不同分辨率参数对聚类结果的影响时
结果复现：当用户需要准确记录生成每个聚类结果的参数时
自动化分析：在脚本或流程中自动运行多个参数组合时

解决方案

正确的实现方式应该是将参数与结果一起存储，即：

对于Leiden算法，参数应存储在adata.uns[key_added]["params"]中
对于Louvain算法，参数应存储在adata.uns[key_added]["params"]中

这样修改后，每个聚类结果都会附带其生成参数，便于后续分析和结果追溯。

最佳实践建议

在修复此问题前，用户可以采取以下临时解决方案：

手动记录使用的参数
在运行聚类后，立即将参数复制到结果键下
考虑使用Scanpy的分支版本或等待官方修复

对于长期解决方案，建议Scanpy开发团队：

修改参数存储逻辑，使其与结果键保持一致
考虑添加参数版本控制功能
完善文档，明确说明参数存储位置

总结

这个参数存储问题虽然看似简单，但对Scanpy用户的多参数聚类分析有实质性影响。正确的参数存储机制是确保分析可重复性和结果可追溯性的重要基础。希望这个问题能尽快得到修复，以增强Scanpy在复杂分析场景下的可靠性。

scanpy

Single-cell analysis in Python. Scales to >100M cells.

项目地址：https://gitcode.com/gh_mirrors/sc/scanpy

登录后查看全文