Apache DataFusion 中 Duration 类型聚合的性能优化实践

2025-06-14 17:06:18作者：秋阔奎Evelyn

arrow-datafusion

Apache Arrow DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-datafusion

背景介绍

在数据分析领域，时间间隔（Duration）类型的计算是非常常见的需求。Apache DataFusion 作为一个高性能的查询引擎，近期针对 Duration 类型的聚合操作进行了专门的性能优化。本文将深入探讨这一优化过程的技术细节和实际效果。

Duration 类型的特点

Duration 类型表示两个时间点之间的间隔，在 DataFusion 中通常通过时间戳相减得到。例如：

SELECT arrow_typeof(now() - '2024-01-02'::timestamp);

这种类型在分析网页响应时间、服务延迟等场景中非常有用。然而，在聚合操作（特别是 AVG 平均计算）时，传统的实现方式性能并不理想。

性能优化方案

DataFusion 团队开发了专门的 GroupsAccumulator 实现来优化 AVG(duration) 的性能。这种优化利用了 Duration 类型的特殊性质：

将 Duration 转换为内部表示（通常是纳秒）
在聚合过程中直接操作数值形式
最后再转换回 Duration 类型

这种优化避免了中间过程中的类型转换开销，显著提高了性能。

基准测试设计

为了验证优化效果，团队设计了专门的 ClickBench 扩展测试。测试查询示例：

SELECT
  "OS",
  AVG(to_timestamp("ResponseEndTiming")-to_timestamp("ResponseStartTiming")) as avg_response_time,
  AVG(to_timestamp("ResponseEndTiming")-to_timestamp("ConnectTiming")) as avg_latency
FROM 'hits_partitioned'
GROUP BY "OS"
ORDER BY avg_latency DESC

这个查询模拟了实际业务场景：分析不同操作系统的平均响应时间和延迟。测试结果显示，优化后的性能提升了约 35%（从 0.47 秒降至 0.30 秒）。

更复杂的测试场景

为了进一步验证优化效果，团队还设计了更复杂的测试场景，增加 GROUP BY 的列数以创建更多分组：

SELECT
  "RegionID",
  "UserAgent",
  "OS",
  AVG(to_timestamp("EventTime") - '2013-07-01T20:00:00'::timestamp) as a_start,
  AVG(to_timestamp("EventTime") - '2013-07-01T20:00:00'::timestamp) as a_end
FROM 'hits_partitioned'
GROUP BY "RegionID", "UserAgent", "OS"
ORDER BY a_start, a_end DESC

这种查询会产生超过 10 万行的结果，更能体现优化后的性能优势。

技术实现细节

优化的核心在于：

避免中间结果的 Duration 类型转换
利用 SIMD 指令加速数值计算
优化内存访问模式
减少分支预测失败

这些优化使得 DataFusion 在处理时间间隔聚合时能够达到接近原生数值计算的速度。

实际应用价值

这种优化对于以下场景特别有价值：

网站性能监控：分析页面加载时间
服务监控：计算 API 响应时间
物联网数据分析：处理设备上报的时间间隔数据
金融交易分析：计算订单处理延迟

总结

DataFusion 对 Duration 类型聚合的优化展示了查询引擎性能调优的典型思路：理解数据类型特性、减少不必要的转换、利用硬件特性。这种优化不仅提升了特定查询的性能，也为类似的数据类型优化提供了参考模式。

对于数据分析师和工程师来说，了解这类底层优化有助于设计更高效的查询，充分发挥 DataFusion 的性能潜力。

arrow-datafusion

Apache Arrow DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-datafusion

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

MindQuantum is a general software library supporting the development of applications for quantum computation.

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！