Pandas项目探讨：为DataFrame.apply方法添加Bodo引擎支持

2025-05-01 21:17:25作者：仰钰奇

背景介绍

在数据处理领域，Pandas作为Python中最受欢迎的数据分析库之一，其DataFrame.apply方法允许用户对数据应用自定义函数(UDF)。然而，当处理大规模数据时，使用默认的Python引擎执行UDF可能会遇到性能瓶颈。

目前Pandas支持两种引擎：

Python引擎（默认）：简单易用但性能较低
Numba引擎：通过JIT编译优化性能，但存在以下限制：
- 仅支持NumPy数据类型，不支持扩展类型(ExtensionDtypes)
- 并行执行受限（仅当raw=True时）
- 错误信息难以解读，调试困难

Bodo是一种自动并行化的JIT编译器，能够将Python代码转换为高度优化的并行二进制文件，具有以下特点：

在Pandas中集成Bodo引擎的潜在实现方式包括：

以一个字符串处理场景为例，处理100万条记录时：

Pandas核心团队对此提议进行了深入讨论，主要关注点包括：

虽然目前讨论尚未形成最终结论，但技术社区倾向于探索更通用的引擎接口方案，既能满足当前需求，又为未来可能的其他引擎集成预留空间。这种方案应该：

无论最终采用何种方案，这都将为Pandas用户带来更强大的数据处理能力，特别是在大规模数据和高性能计算场景下。

登录后查看全文