Apache Arrow DataFusion 中 APPROX_PERCENTILE_CONT 函数语法变更解析

2025-05-31 09:25:23作者：何将鹤

在 Apache Arrow DataFusion 项目中，最近对 APPROX_PERCENTILE_CONT 聚合函数的语法规范进行了重要调整，这直接影响了 ClickBench 扩展查询集的兼容性。本文将深入分析这一变更的技术背景、影响范围以及解决方案。

语法变更背景

APPROX_PERCENTILE_CONT 是一种有序集聚合函数(Ordered-Set Aggregate Function)，用于计算近似百分位数。在 DataFusion 47.0.0 版本之前，该函数允许使用简化的语法形式：

APPROX_PERCENTILE_CONT(column_name, percentile_value)

然而，最新版本遵循了更严格的 SQL 标准，要求必须显式使用 WITHIN GROUP 子句来指定排序规则：

APPROX_PERCENTILE_CONT(percentile_value) WITHIN GROUP (ORDER BY column_name)

技术影响分析

这一变更使 DataFusion 的行为与 PostgreSQL 等主流数据库保持一致。在 PostgreSQL 中，有序集聚合函数必须包含 WITHIN GROUP 子句，因为它需要明确指定计算百分位数时使用的排序依据。

这种语法变更影响了 ClickBench 基准测试中的扩展查询集，特别是查询 Q5。原查询中的 APPROX_PERCENTILE_CONT 用法现在会触发解析错误：

Error during planning: WITHIN GROUP clause is required when calling ordered set aggregate function(approx_percentile_cont)

解决方案

要解决这个问题，需要按照标准语法重写查询。以下是修正后的正确形式：

SELECT 
  "ClientIP", 
  "WatchID",  
  COUNT(*) c, 
  MIN("ResponseStartTiming") tmin, 
  APPROX_PERCENTILE_CONT(0.95) WITHIN GROUP (ORDER BY "ResponseStartTiming") tp95, 
  MAX("ResponseStartTiming") tmax
FROM 'hits.parquet'
WHERE "JavaEnable" = 0
GROUP BY "ClientIP", "WatchID"
HAVING c > 1
ORDER BY tp95 DESC
LIMIT 10;