Apache Arrow 20.0.0版本中废弃API的清理工作

2025-05-18 21:47:49作者：郁楠烈Hubert

在Apache Arrow项目20.0.0版本的开发过程中，开发团队对代码库中已废弃的API进行了全面审查和清理。这项工作涉及C++和Python两个主要组件，旨在移除那些已经达到废弃期限的接口，保持代码库的整洁和现代化。

C++组件中的废弃API移除

在C++组件中，开发团队移除了多个已经过时的API接口：

分组器相关功能：移除了GetNextSegment及其相关函数，这些函数在18.0.0版本中已被标记为废弃。
Gandiva缓存功能：移除了GetCapacity方法，该方法在17.0.0版本中已被废弃。
内存IO操作：移除了BufferReader的旧构造函数，这些构造函数在14.0.0版本中已被标记为废弃。
HDFS相关接口：移除了ObjectType和FileStatistics等HDFS相关接口，这些接口在0.17.0版本中已被废弃。
GCS文件系统操作：移除了OpenAppendStream方法，该方法在6.0.0版本中已被标记为废弃。
线程池管理：清理了owned_thread_pool_相关的遗留代码，这些代码在11.0.0版本中已被废弃。

值得注意的是，部分在19.0.0版本中标记为废弃的API，如GetRecordBatchReader和带有chunk_size参数的NewRowGroup方法，由于还未达到废弃期限，暂时保留在代码库中。

Python组件中的废弃API移除

在Python组件中，开发团队也进行了类似的清理工作：

IPC写入器：移除了use_legacy_format参数，该参数已被更现代的替代方案所取代。
Parquet数据集操作：移除了use_legacy_dataset参数，简化了Parquet数据集的操作接口。
扩展类型支持：移除了PyExtensionType相关实现，该实现已被更完善的扩展类型机制所替代。

Flight相关组件的清理

在Flight相关组件中，开发团队移除了几个长期废弃的接口：

认证机制：移除了Authenticate方法，该方法在13.0.0版本中已被标记为废弃。
UCX传输：移除了Flight UCX相关实现，这些实现在19.0.0版本中已被废弃。
中间件调用：移除了StartCall方法，该方法在13.0.0版本中已被标记为废弃。

技术意义与影响

这次API清理工作对Apache Arrow项目具有重要意义：

代码质量提升：通过移除废弃代码，减少了代码库的维护负担，提高了整体代码质量。
开发者体验改善：减少了开发者可能遇到的废弃API警告，提供了更清晰的接口选择。
性能优化：移除不必要的代码路径可能带来轻微的性能提升。
未来兼容性：为后续版本的功能开发扫清了障碍。

对于现有用户而言，如果项目中使用到了这些已被移除的API，需要在升级到20.0.0版本前进行相应的代码迁移。开发团队建议用户定期检查项目中的废弃API警告，并及时更新代码以避免未来兼容性问题。

这次清理工作展示了Apache Arrow项目对代码质量和长期维护性的重视，也体现了开源社区协作的力量。通过定期清理废弃API，项目能够保持技术上的先进性，为大数据处理领域提供更高效、更可靠的解决方案。

arrow

Apache Arrow is a multi-language toolbox for accelerated data interchange and in-memory processing

项目地址：https://gitcode.com/gh_mirrors/arrow13/arrow

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理