Apache DataFusion 计划解释器默认切换为树形展示模式的技术解析

2025-05-31 14:58:32作者：余洋婵Anita

Apache DataFusion 作为高性能查询执行框架，其查询计划解释功能对于开发者理解和优化查询至关重要。近期社区讨论并通过了一项重要改进：将默认的查询计划解释格式从传统的缩进模式(indent)切换为更直观的树形模式(tree)。

背景与现状

当前DataFusion提供两种查询计划展示格式：

传统缩进模式：展示详细的技术细节，适合深度调试
树形模式：采用可视化树状结构，更直观展示执行流程

在现有版本中，用户执行EXPLAIN命令时默认看到的是缩进模式的输出，这种格式虽然信息全面，但对于初学者来说理解门槛较高。而通过EXPLAIN FORMAT tree命令可以获取更友好的树形展示。

改进方案

技术团队经过深入讨论后决定：

将默认的datafusion.explain.format配置值改为"tree"
保持现有测试用例继续使用缩进模式，确保测试覆盖率
在datafusion-cli中默认启用树形展示

技术优势对比

缩进模式示例（简化版）：

LeftSemi Join: hits_partitioned.WatchID = __correlated_sq_1.WatchID
  TableScan: ...
  SubqueryAlias: __correlated_sq_1
    Projection: hits_partitioned.WatchID
      Sort: hits_partitioned.EventTime ASC NULLS LAST, fetch=10
        Projection: hits_partitioned.WatchID, hits_partitioned.EventTime
          Filter: CAST(hits_partitioned.URL AS Utf8View) LIKE Utf8View("%google%")
            TableScan: hits_partitioned projection=[WatchID, EventTime, URL]

树形模式示例：

┌───────────────────────────┐
│    CoalesceBatchesExec    │
│    --------------------   │
│     target_batch_size:    │
│            8192           │
└─────────────┬─────────────┘
┌─────────────┴─────────────┐
│        HashJoinExec       │
│    --------------------   │
│    join_type: RightSemi   │
│            on:            │
│    (WatchID = WatchID)    │
└─────────────┬─────────────┘
[更多层级...]

明显可见树形模式通过可视化布局和简洁的关键信息展示，大大提升了可读性，特别适合以下场景：