Numba性能回归分析：searchsorted在紧密循环中显著变慢

2025-05-22 02:26:39作者：段琳惟

问题背景

在Numba 0.59.0版本中，用户报告了一个严重的性能回归问题：np.searchsorted函数在紧密循环中的执行速度相比0.58.1版本大幅下降。测试案例显示，执行时间从2.9秒增加到了14.6秒，性能下降了约5倍。

问题复现与分析

测试案例创建了一个包含10000个随机长度数组的列表，每个数组都经过排序处理。然后使用np.searchsorted在这些排序后的数组中执行二分查找操作。关键点在于这个操作被放在了一个双重循环中执行。

性能对比数据如下：

Numba 0.58.1版本：2.9秒
Numba 0.59.0版本：14.6秒
手动实现的二分查找：约4.4秒（两个版本表现一致）

根本原因

经过项目维护者确认，这个性能回归是由PR #9189引入的。该PR原本是为了解决其他问题而进行的修改，但意外影响了searchsorted在紧密循环中的性能表现。

技术细节

np.searchsorted是NumPy提供的一个高效二分查找实现，常用于在已排序数组中查找插入位置。在Numba中，这个函数被编译为本地机器码以获得更好的性能。

性能下降的主要原因可能是：

新版本中增加了额外的类型验证或范围验证
循环优化策略发生了变化
内存访问模式不如之前高效

值得注意的是，手动实现的二分查找在两个版本中表现一致，说明问题确实出在Numba对searchsorted的特殊处理上。

解决方案

项目维护者已经确认找到了修复这个回归问题的补丁。对于遇到此问题的用户，可以：

暂时回退到0.58.1版本
使用手动实现的二分查找作为临时解决方案
等待包含修复补丁的新版本发布

性能优化建议

在实际应用中，如果遇到类似性能问题，可以考虑：

减少循环嵌套层次
预分配内存空间
使用更高效的数据结构
考虑使用并行计算（虽然测试案例中禁用了并行）

总结

这个案例展示了即使是成熟的数值计算库，在版本更新时也可能引入性能回归。对于性能敏感的应用，建议：

进行版本升级前的性能测试
保持对关键函数的性能监控
了解备用实现方案

Numba团队已经快速响应并修复了这个问题，体现了开源社区对性能问题的高度重视。

numba

numba/numba: Numba 是一个用于 Python 的 Just-In-Time (JIT) 编译器，可以用于加速 Python 代码的执行，支持多种 CPU 和 GPU 架构，如 x86，ARM，CUDA 等。

项目地址：https://gitcode.com/gh_mirrors/nu/numba

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781