首页
/ Apache DataFusion 47.0.0 版本发布技术解析

Apache DataFusion 47.0.0 版本发布技术解析

2025-05-31 05:02:11作者:冯爽妲Honey

Apache DataFusion 作为高性能查询执行框架的最新版本47.0.0即将发布,这个版本带来了多项性能优化、功能增强和重要修复。作为技术专家,我将深入解析这个版本的关键技术亮点和升级注意事项。

核心性能优化

本次版本在查询执行性能方面做出了显著改进。其中最引人注目的是对哈希聚合操作的优化,通过改进内存管理和执行策略,大幅提升了复杂聚合查询的处理速度。此外,查询计划器也获得了多项优化,能够生成更高效的执行计划。

在数据源处理层面,Parquet文件读取性能得到了提升,特别是在处理INT96时间戳类型时表现更为出色。这一改进使得DataFusion能够更好地支持传统Parquet文件格式。

重要功能增强

47.0.0版本引入了对十进制数据类型比较操作的全面支持,包括不同精度和小数位数的十进制数之间的比较。这一增强使得金融和科学计算场景下的数据处理更加便捷。

窗口函数功能也得到了完善,特别是last_value函数的实现更加符合SQL标准。此外,子查询处理和JOIN操作的优化使得复杂查询的执行更加高效稳定。

架构改进与API变更

这个版本包含了一些重要的架构调整,移除了部分已弃用的API接口。特别值得注意的是,ScalarUDFImpl中的废弃方法已被移除,使用自定义标量函数的项目需要相应调整代码。

在物理计划显示方面,引入了TreeRender显示格式类型,需要执行计划实现相应的显示逻辑。同时,移除了schema mapper中的map_partial_batch方法和parquet源中的page_pruning_predicate公共API。

兼容性注意事项

升级到47.0.0版本需要注意以下几点:

  1. 空连接条件现在会被视为错误,这在LogicalPlanBuilder的join_on和join_detailed方法中有所体现
  2. 过滤条件下推优化现在会处理无操作表达式(如布尔字面量),可能影响某些缓存实现
  3. 子结构体字段重命名行为有所变化,可能影响Substrait消费者

测试与验证

在发布准备过程中,DataFusion团队与多个相关项目进行了广泛测试,包括DataFusion Python绑定、Comet执行引擎、Delta.rs实现以及SailHQ等。测试覆盖了核心功能、性能表现和兼容性各个方面。

Parquet查看器等工具也参与了验证过程,确保文件处理功能的稳定性。通过这些严格测试,47.0.0版本的稳定性和可靠性得到了充分验证。

总结

Apache DataFusion 47.0.0版本在性能、功能和稳定性方面都取得了显著进步。对于现有用户,建议仔细阅读升级指南,评估API变更对项目的影响。新用户可以充分利用这个版本提供的增强功能来构建高性能的数据处理应用。

随着Arrow 55支持的即将加入,DataFusion在列式内存处理和文件格式支持方面将更进一步,为数据分析领域提供更强大的基础设施。

登录后查看全文
热门项目推荐

项目优选

收起
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
52
15
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
670
446
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
138
223
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
361
355
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
97
156
Python-100-DaysPython-100-Days
Python - 100天从新手到大师
Python
817
149
gin-vue-admingin-vue-admin
🚀Vite+Vue3+Gin的开发基础平台,支持TS和JS混用。它集成了JWT鉴权、权限管理、动态路由、显隐可控组件、分页封装、多点登录拦截、资源权限、上传下载、代码生成器【可AI辅助】、表单生成器和可配置的导入导出等开发必备功能。
Go
46
8
open-eBackupopen-eBackup
open-eBackup是一款开源备份软件,采用集群高扩展架构,通过应用备份通用框架、并行备份等技术,为主流数据库、虚拟化、文件系统、大数据等应用提供E2E的数据备份、恢复等能力,帮助用户实现关键数据高效保护。
HTML
110
74
凹语言凹语言
凹语言 | 因为简单,所以自由
Go
17
5
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
112
253