Arrow DataFusion 优化器默认连接分区策略改进分析

2025-06-14 08:30:00作者：郁楠烈Hubert

背景介绍

在大数据处理领域，查询优化器的性能直接影响着SQL查询的执行效率。Apache Arrow DataFusion作为一个高性能的查询引擎，其优化器设计对整体性能至关重要。近期社区针对DataFusion中连接操作的默认分区策略进行了重要改进，将默认策略从PartitionMode::Partitioned调整为PartitionMode::Auto，这一变化显著提升了查询优化器的智能化程度和执行效率。

连接分区策略概述

在分布式查询处理中，连接操作的分区策略选择是影响性能的关键因素。DataFusion提供了多种分区模式：

Partitioned模式：强制对连接操作进行分区处理，适用于大数据集间的连接
CollectLeft模式：当左表较小时，将其完整收集到单个节点再进行连接
Auto模式：由优化器基于统计信息自动选择最优策略

原有实现的问题

在改进前，DataFusion默认采用PartitionMode::Partitioned作为连接策略，这一设计存在明显局限性：

当左表数据量很小时（如经过LIMIT处理的结果），仍然强制分区处理，造成不必要的网络开销
无法利用文件或计划本身提供的统计信息（如已知的小表）进行优化
对于有明显优化空间的场景，无法自动选择更高效的CollectLeft策略

优化方案详解

社区决定将默认策略改为PartitionMode::Auto，这一改进带来了多方面优势：

智能策略选择：优化器现在可以基于可用统计信息自动决策
充分利用统计信息：无论是文件元数据还是计划推导的统计信息（如LIMIT子句）都能被有效利用
减少不必要开销：对于小表连接场景，避免了冗余的分区操作

技术实现要点

在具体实现上，这一改进涉及以下关键技术点：

统计信息推断：即使没有显式收集统计信息，也能从计划结构中推导出有用信息
成本估算模型：基于数据量大小自动判断是否采用收集策略
执行计划生成：根据策略选择生成不同的物理执行计划

性能影响分析

这一默认策略的改变对典型查询场景产生了积极影响：

小表连接大表场景：性能提升显著，避免了不必要的数据重分布
LIMIT查询后的连接：能够识别结果集大小并选择最优策略
统计信息可用场景：充分利用已有统计信息进行优化

实际应用示例

考虑以下典型查询场景：

-- 小表与大表连接
SELECT * FROM small_table JOIN large_table ON small_table.id = large_table.id;

-- 带LIMIT的查询后再连接
SELECT * FROM (SELECT * FROM table1 LIMIT 10) t1 JOIN table2 ON t1.id = table2.id;

在改进前，这些查询都会强制使用分区连接策略；改进后，优化器能够自动识别这些场景并选择更高效的CollectLeft策略。

总结

DataFusion将默认连接分区策略改为PartitionMode::Auto的改进，体现了查询优化器向更智能化方向发展的趋势。这一变化使得优化器能够基于实际数据特征选择最优执行策略，既提升了查询性能，又减少了用户手动调优的需求。对于DataFusion用户而言，这意味着开箱即用的更好性能体验，特别是在包含连接操作的各种查询场景中。

arrow-datafusion

Apache Arrow DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-datafusion

登录后查看全文