Apache Arrow DataFusion 聚合表达式显示格式优化

2025-06-14 18:36:30作者：邵娇湘

在 Apache Arrow DataFusion 项目中，聚合表达式的显示格式存在冗余信息的问题。本文将深入分析这一问题，并提出一个优雅的解决方案。

问题背景

在 DataFusion 的执行计划可视化输出中，AggregateExec 节点的显示包含了过多的冗余信息。当前输出格式如下：

┌─────────────┴─────────────┐
│       AggregateExec       │
│    --------------------   │
│   aggr: count(Int64(1))   │
│        mode: Final        │
└─────────────┬─────────────┘

其中 count(Int64(1)) 的显示方式包含了不必要的类型信息，这在实际使用中可能会影响可读性，特别是对于复杂的聚合表达式。

技术分析

通过代码调试发现，AggregateFunctionExpr 的名称是在 create_aggregate_expr_and_maybe_filter 函数中构建的。该函数通过 Expr 的 SchemaDisplay 为所有表达式实例生成调试信息。

当前实现存在以下特点：

显示格式包含了过多的实现细节
对于终端用户来说，类型信息可能不是最关心的内容
复杂的聚合表达式会导致显示更加冗长

解决方案设计

为了优化聚合表达式的显示格式，我们提出以下技术方案：

新增 sql_name 成员：在 AggregateFunctionExpr 结构体中添加 sql_name 成员，专门用于存储 SQL 风格的显示名称。
引入新的格式化方法：
- 为 Expr trait 添加 fmt_sql_name() 方法
- 在 AggregateFunction 中重写该方法，生成更简洁的 SQL 风格名称
修改显示逻辑：
- 调整 AggregateExec 中的 fmt_as 实现
- 使用 aggr_expr.sql_name 替代原来的 aggr_expr.name

实现优势

该方案具有以下优点：

显示更简洁：去除了不必要的类型信息，使输出更加清晰
向后兼容：不影响现有功能的正常运行
可扩展性：为未来可能需要的其他显示格式提供了扩展点
一致性：使显示格式更接近 SQL 标准形式

预期效果

优化后的显示格式将类似于：

┌─────────────┴─────────────┐
│       AggregateExec       │
│    --------------------   │
│      aggr: count(1)       │
│        mode: Final        │
└─────────────┬─────────────┘

这种格式更加简洁明了，更符合用户对聚合操作的直观理解。