Apache Arrow 20.0.0版本中已移除的废弃API分析

2025-05-15 17:22:26作者：毕习沙Eudora

Arrow是一个跨语言的内存格式，主要用于高效地传输和存储数据。它的特点是高效、灵活、易于使用等。适用于数据传输和存储场景。

项目地址：https://gitcode.com/GitHub_Trending/arrow3/arrow

Apache Arrow项目在20.0.0版本中进行了多项废弃API的清理工作，这些API大多已在早期版本中被标记为废弃状态。本文将详细介绍这些被移除的API及其影响范围。

C++核心模块的API变更

在C++部分，项目移除了多个长期标记为废弃的接口：

分组操作相关：移除了GetNextSegment及其相关函数，这些函数自18.0.0版本起就被标记为废弃状态。这些函数原本用于处理数据分组操作，现已被更现代的替代方案取代。
缓存管理：Gandiva模块中的GetCapacity函数被移除，该函数自17.0.0版本起就被废弃。这是缓存管理API现代化改造的一部分。
内存I/O：BufferReader的旧式构造函数被移除，这些构造函数自14.0.0版本起就被标记为废弃。新的构造函数提供了更好的内存管理和错误处理机制。
HDFS接口：移除了ObjectType和FileStatistics等HDFS相关类型，这些类型自0.17.0版本起就被废弃。这些类型已被更符合现代HDFS接口的设计所取代。
GCS文件系统：移除了OpenAppendStream函数，该函数自6.0.0版本起就被废弃。GCS文件系统接口经历了重大重构，提供了更一致的流操作API。
线程池管理：清理了owned_thread_pool_相关代码，这些代码自11.0.0版本起就被废弃。新的线程池管理机制提供了更好的资源控制和生命周期管理。

Python模块的API变更

Python绑定部分也进行了类似的清理：

IPC格式：移除了use_legacy_format参数，该参数控制IPC写入器是否使用旧版格式。新版IPC格式提供了更好的性能和兼容性。
Parquet数据集：移除了use_legacy_dataset参数，该参数原本用于控制是否使用旧版Parquet数据集实现。新版实现提供了更完整的功能和更好的性能。
扩展类型：移除了PyExtensionType相关代码，这是扩展类型系统现代化改造的一部分。新的扩展类型机制提供了更清晰的接口和更好的类型安全。

Flight相关变更

Flight组件也进行了多项清理：

认证接口：移除了旧的Authenticate方法，该方法自13.0.0版本起就被废弃。新的认证机制提供了更灵活的安全模型。
中间件接口：移除了StartCall方法，该方法同样自13.0.0版本起就被废弃。新的中间件API提供了更一致的调用生命周期管理。
UCX传输：移除了Flight UCX传输实现，该实现自19.0.0版本起就被标记为废弃。项目推荐使用更成熟的替代传输方案。

对用户的影响和迁移建议

对于使用这些废弃API的用户，建议：

检查项目代码中是否使用了上述任何废弃API
参考对应版本的更新日志了解替代方案
在升级到20.0.0版本前完成迁移
特别注意IPC格式和Parquet数据集相关的变更，这些变更可能影响数据读写行为

这些清理工作有助于减少代码维护负担，提高整体性能，并为未来功能开发提供更清晰的基础架构。项目团队建议用户尽快迁移到新的API，以获得更好的性能和更长期的支持。

Arrow是一个跨语言的内存格式，主要用于高效地传输和存储数据。它的特点是高效、灵活、易于使用等。适用于数据传输和存储场景。

项目地址：https://gitcode.com/GitHub_Trending/arrow3/arrow

登录后查看全文

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统