Apache DataFusion 47.0.0 版本发布技术解析

2025-05-31 23:07:31作者：戚魁泉Nursing

Apache DataFusion 作为高性能查询执行框架，即将迎来47.0.0版本的发布。本次更新包含多项性能优化、功能增强和重要修复，为分布式查询处理带来了显著改进。

核心功能增强

在47.0.0版本中，开发团队重点优化了查询执行性能。通过重新设计过滤条件下推机制，系统现在能够更智能地识别和处理无操作表达式，如布尔值常量。虽然这一改进提升了整体性能，但需要注意它可能对某些缓存实现产生细微影响。

针对窗口函数处理，团队修复了last_value函数的回归问题，确保了窗口函数行为的稳定性。同时，对Decimal类型的比较操作进行了扩展，现在支持不同精度和小数位数的Decimal值之间的比较操作。

执行计划与优化器改进

新版本对执行计划的显示格式进行了调整，引入了TreeRender显示类型。这一变化要求所有自定义执行计划实现相应处理逻辑。物理表达式映射机制也有所改变，移除了map_partial_batch方法，简化了批处理映射流程。

在查询优化方面，47.0.0版本改进了连接操作的处理逻辑。现在明确将空连接条件视为错误情况，这一变化体现在LogicalPlanBuilder的join_on和join_detailed方法中。

数据源与格式支持

Parquet文件处理能力得到增强，移除了page_pruning_predicate的公共API接口。这一变化是内部重构的一部分，旨在简化Parquet数据源的实现。同时，团队正在评估是否在本版本中升级Arrow依赖至55版本，以获得改进的INT96支持。

用户自定义函数变更

47.0.0版本清理了ScalarUDFImpl中的废弃方法，移除了所有标记为过时的UDF调用接口。使用自定义函数的项目需要相应调整代码，迁移到新的API接口。

兼容性说明

本次更新包含多项破坏性变更，需要用户特别注意：

执行计划显示格式需要支持TreeRender类型
移除了SchemaMapper中的map_partial_batch方法
Parquet数据源不再公开page_pruning_predicate接口
废弃的ScalarUDFImpl方法已被移除
空连接条件现在会触发错误

性能优化

47.0.0版本包含多项性能改进，特别是针对复杂查询的执行效率。团队优化了内存使用和CPU利用率，在TPC-H等基准测试中显示出显著的性能提升。

社区生态适配

DataFusion团队与多个下游项目密切合作，包括DataFusion Comet、Delta.rs、SailHQ和Parquet Viewer等，确保47.0.0版本的平滑升级。这些项目已经完成了兼容性测试，验证了新版本的稳定性。

升级建议

对于计划升级到47.0.0版本的用户，建议：

仔细阅读完整的升级指南
检查自定义执行计划的显示逻辑
更新使用废弃UDF API的代码
验证连接条件是否为空的情况
测试Parquet数据源相关功能

本次发布体现了DataFusion项目对性能、稳定性和易用性的持续追求，为分布式数据处理提供了更强大的基础能力。

datafusion

Apache DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/datafu/datafusion

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

350

203

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Apache DataFusion 47.0.0 版本发布技术解析

核心功能增强

执行计划与优化器改进

数据源与格式支持

用户自定义函数变更

兼容性说明

性能优化

社区生态适配

升级建议

热门内容推荐

最新内容推荐

项目优选

Apache DataFusion 47.0.0 版本发布技术解析

核心功能增强

执行计划与优化器改进

数据源与格式支持

用户自定义函数变更

兼容性说明

性能优化

社区生态适配

升级建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选