Scanpy项目中Scrublet与NumPy 2.0兼容性问题分析

2025-07-04 05:03:28作者：蔡怀权

在单细胞RNA测序数据分析中，Scanpy是一个广泛使用的Python工具包，而Scrublet则是其用于检测双细胞(doublets)的重要组件。近期有用户在使用Scanpy 1.11.1版本时遇到了一个与NumPy 2.0兼容性相关的问题，值得深入探讨。

问题现象

当用户尝试运行sc.pp.scrublet(adata)进行双细胞检测时，程序抛出了一个AttributeError异常，提示np.infty在NumPy 2.0版本中已被移除，建议改用np.inf。这个错误发生在pynndescent包的内部调用过程中。

根本原因分析

经过技术分析，这个问题源于以下几个技术层面的因素：

NumPy 2.0的API变更：NumPy 2.0版本中移除了np.infty这个别名，统一使用np.inf来表示无穷大值。这是一个向后不兼容的API变更。
pynndescent包的版本问题：用户环境中安装的pynndescent版本较旧（推测为0.5.10），这个版本在代码中仍然使用了已被废弃的np.infty表示方法。
依赖链关系：Scanpy的Scrublet功能依赖于pynndescent包进行最近邻搜索，而pynndescent又依赖于NumPy。当用户升级到NumPy 2.0后，就出现了这种向下不兼容的情况。

解决方案

对于遇到类似问题的用户，可以考虑以下几种解决方案：

降级NumPy版本：暂时将NumPy降级到1.x版本（如1.26.x），等待相关依赖包更新适配NumPy 2.0。
升级pynndescent：检查是否有更新的pynndescent版本可用，新版本可能已经解决了这个兼容性问题。
手动修改依赖包代码：对于有经验的用户，可以临时修改pynndescent包中的代码，将所有np.infty替换为np.inf。

技术启示

这个案例给我们带来了一些重要的技术启示：

Python生态系统的版本兼容性：在科学计算领域，核心库如NumPy的重大版本更新可能会引发广泛的兼容性问题。
依赖管理的重要性：在构建数据分析流程时，需要特别注意各依赖包之间的版本兼容性。
过渡期策略：在主要依赖库进行重大版本更新时，建议先在测试环境中验证整个分析流程的兼容性。

最佳实践建议

为了避免类似问题，建议用户在设置分析环境时：

使用虚拟环境或容器技术隔离不同项目的依赖
在项目文档中明确记录所有依赖包的版本信息
定期更新依赖包，但要注意先在小规模数据上测试兼容性
关注主要依赖库的发布说明，了解重大变更

这个问题虽然表面上是Scrublet的功能异常，但实际上反映了科学计算生态系统中版本管理的复杂性。理解这类问题的根源有助于我们更好地构建稳定的分析流程。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

Ascend Extension for PyTorch

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started