Apache DataFusion 中 Duration 类型聚合的性能优化实践

2025-05-31 05:28:34作者：廉皓灿Ida

背景介绍

Apache DataFusion 是一个高性能的查询执行引擎，它使用 Rust 编写，支持 SQL 查询执行和 DataFrame API。在数据分析场景中，时间差(Duration)类型的聚合操作是非常常见的需求，比如计算平均响应时间、平均延迟等指标。

问题发现

在 DataFusion 项目中，开发团队注意到现有的 AVG 聚合函数在处理 Duration 类型数据时存在性能瓶颈。具体表现为：

当前实现没有针对 Duration 类型进行特殊优化
缺乏专门的基准测试来衡量 Duration 聚合的性能
无法直观评估优化后的性能提升效果

技术方案

为了解决这个问题，团队提出了以下技术方案：

1. 实现 GroupsAccumulator 优化

开发团队为 Duration 类型实现了专门的 GroupsAccumulator，这是一种针对分组聚合操作的优化机制。通过为特定数据类型定制累加器，可以显著提高聚合操作的性能。

2. 设计基准测试

为了验证优化效果，团队设计了基于 Clickbench 数据集的扩展基准测试。测试查询模拟了真实业务场景，如：

SELECT
  "RegionID",
  "UserAgent",
  "OS",
  AVG(to_timestamp("EventTime") - '2013-07-01T20:00:00'::timestamp) as a_start,
  AVG(to_timestamp("EventTime") - '2013-07-01T20:00:00'::timestamp) as a_end
FROM
  'hits_partitioned'
GROUP BY
  "RegionID",
  "UserAgent",
  "OS"
ORDER BY
  a_start, a_end DESC;

这个查询计算了不同地区、用户代理和操作系统组合下，事件时间相对于基准时间的平均时间差。

性能对比

在实际测试中，优化前后的性能对比结果令人印象深刻：

优化前执行时间：约 0.478 秒
优化后执行时间：约 0.306 秒

性能提升达到约 36%，证明了专门优化的有效性。

业务场景扩展

为了覆盖更多实际业务场景，团队还设计了更复杂的查询，例如分析不同操作系统的网络性能：

SELECT
  "OS",
  AVG(to_timestamp("ResponseEndTiming")-to_timestamp("ResponseStartTiming")) as avg_response_time,
  AVG(to_timestamp("ResponseEndTiming")-to_timestamp("ConnectTiming")) as avg_latency 
FROM
  'data/hits_partitioned'
GROUP BY
  "OS"
ORDER BY
  avg_latency DESC
LIMIT 10

这个查询可以帮助识别响应时间和延迟最差的操作系统，为性能优化提供数据支持。

技术实现细节

在实现过程中，团队特别注意了以下几点：

避免不必要的子查询和连接：简化查询结构，减少中间结果集
合理设置分组键：通过组合多个维度(RegionID, UserAgent, OS)增加分组数量，更好地测试聚合性能
数据类型处理：正确处理时间戳和 Duration 类型的转换和计算

总结与展望

通过这次优化，DataFusion 在处理 Duration 类型聚合时的性能得到了显著提升。这不仅解决了当前性能瓶颈，还为后续类似优化提供了基准测试框架。

未来，团队计划：

扩展更多 Duration 相关的聚合函数优化
增加更复杂的业务场景测试
探索其他数据类型的专用累加器实现

这次优化实践展示了 DataFusion 项目对性能优化的持续追求，也体现了开源社区协作的力量。通过解决具体的技术挑战，DataFusion 正在成为更加强大和高效的数据处理引擎。

datafusion

Apache DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/datafu/datafusion

登录后查看全文