Logfire项目中关于WITHIN GROUP查询语法的替代方案
2025-06-27 02:38:15作者:韦蓉瑛
在Logfire项目的最新数据库引擎升级中,性能得到了显著提升,但同时也带来了一些SQL查询语法兼容性的变化。本文将重点讨论PostgreSQL中常用的WITHIN GROUP语法在DataFusion中的替代方案。
性能提升背景
Logfire项目近期完成了数据库引擎的升级,从实际测试数据来看,新引擎在处理时间跨度较大的查询时表现优异。例如,原先加载超过3小时时间跨度的仪表盘数据会遇到性能问题,而新引擎能够轻松处理30天跨度的数据查询,性能提升显著。
WITHIN GROUP语法问题
在PostgreSQL中,percentile_cont函数常与WITHIN GROUP子句配合使用来计算百分位数。典型查询如下:
SELECT
time_bucket('1 hour', start_timestamp) AS x,
percentile_cont(0.99) WITHIN GROUP (ORDER BY duration) as percentile_99,
percentile_cont(0.95) WITHIN GROUP (ORDER BY duration) as percentile_95
FROM records
GROUP BY x
然而,DataFusion目前不支持这种语法结构,这导致原有的查询无法执行。
替代解决方案
针对这一兼容性问题,Logfire团队推荐使用DataFusion内置的approx_percentile_cont函数作为替代方案。该函数直接接受百分位数值和待计算列作为参数,无需WITHIN GROUP子句。
优化后的查询示例如下:
WITH dataset AS (
SELECT
time_bucket('1 hour', start_timestamp) AS x,
extract(ms from end_timestamp - start_timestamp) as duration_ms
FROM records
WHERE attributes ? 'http.method'
)
SELECT
x,
approx_percentile_cont(duration_ms, 0.50) as percentile_50,
approx_percentile_cont(duration_ms, 0.90) as percentile_90,
approx_percentile_cont(duration_ms, 0.95) as percentile_95,
approx_percentile_cont(duration_ms, 0.99) as percentile_99
FROM dataset
GROUP BY x
ORDER BY x
实际应用案例
在实际应用中,这种替代方案已被证明有效。例如,在监控HTTP请求持续时间的场景中,开发人员可以:
- 首先通过子查询计算每个请求的持续时间(毫秒)
- 然后使用
approx_percentile_cont函数计算各时间桶内的不同百分位数值 - 最后按时间排序展示结果
这种方法不仅解决了语法兼容性问题,还保持了查询的清晰性和可读性。
未来展望
虽然目前DataFusion尚未原生支持WITHIN GROUP语法,但Logfire团队已经向DataFusion项目提交了相关功能请求。在未来的版本中,可能会实现对这一语法的完整支持,从而提供更多样化的查询选择。
对于当前需要百分位数计算功能的用户,approx_percentile_cont函数提供了一个可靠且高效的替代方案,能够满足绝大多数监控和分析场景的需求。
登录后查看全文
热门项目推荐
相关项目推荐
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C097
baihu-dataset异构数据集“白虎”正式开源——首批开放10w+条真实机器人动作数据,构建具身智能标准化训练基座。00
mindquantumMindQuantum is a general software library supporting the development of applications for quantum computation.Python058
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00
GLM-4.7GLM-4.7上线并开源。新版本面向Coding场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。 目前,GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作。Jinja00
AgentCPM-Explore没有万亿参数的算力堆砌,没有百万级数据的暴力灌入,清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 AgentCPM-Explore 智能体模型基于仅 4B 参数的模型,在深度探索类任务上取得同尺寸模型 SOTA、越级赶上甚至超越 8B 级 SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果,真正让大模型的长程任务处理能力有望部署于端侧。Jinja00
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
477
3.55 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
232
97
暂无简介
Dart
728
175
React Native鸿蒙化仓库
JavaScript
287
340
Ascend Extension for PyTorch
Python
287
320
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.28 K
704
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
10
1
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
849
445
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
65
19