Logfire项目中关于WITHIN GROUP查询语法的替代方案
2025-06-27 10:06:53作者:韦蓉瑛
在Logfire项目的最新数据库引擎升级中,性能得到了显著提升,但同时也带来了一些SQL查询语法兼容性的变化。本文将重点讨论PostgreSQL中常用的WITHIN GROUP语法在DataFusion中的替代方案。
性能提升背景
Logfire项目近期完成了数据库引擎的升级,从实际测试数据来看,新引擎在处理时间跨度较大的查询时表现优异。例如,原先加载超过3小时时间跨度的仪表盘数据会遇到性能问题,而新引擎能够轻松处理30天跨度的数据查询,性能提升显著。
WITHIN GROUP语法问题
在PostgreSQL中,percentile_cont函数常与WITHIN GROUP子句配合使用来计算百分位数。典型查询如下:
SELECT
time_bucket('1 hour', start_timestamp) AS x,
percentile_cont(0.99) WITHIN GROUP (ORDER BY duration) as percentile_99,
percentile_cont(0.95) WITHIN GROUP (ORDER BY duration) as percentile_95
FROM records
GROUP BY x
然而,DataFusion目前不支持这种语法结构,这导致原有的查询无法执行。
替代解决方案
针对这一兼容性问题,Logfire团队推荐使用DataFusion内置的approx_percentile_cont函数作为替代方案。该函数直接接受百分位数值和待计算列作为参数,无需WITHIN GROUP子句。
优化后的查询示例如下:
WITH dataset AS (
SELECT
time_bucket('1 hour', start_timestamp) AS x,
extract(ms from end_timestamp - start_timestamp) as duration_ms
FROM records
WHERE attributes ? 'http.method'
)
SELECT
x,
approx_percentile_cont(duration_ms, 0.50) as percentile_50,
approx_percentile_cont(duration_ms, 0.90) as percentile_90,
approx_percentile_cont(duration_ms, 0.95) as percentile_95,
approx_percentile_cont(duration_ms, 0.99) as percentile_99
FROM dataset
GROUP BY x
ORDER BY x
实际应用案例
在实际应用中,这种替代方案已被证明有效。例如,在监控HTTP请求持续时间的场景中,开发人员可以:
- 首先通过子查询计算每个请求的持续时间(毫秒)
- 然后使用
approx_percentile_cont函数计算各时间桶内的不同百分位数值 - 最后按时间排序展示结果
这种方法不仅解决了语法兼容性问题,还保持了查询的清晰性和可读性。
未来展望
虽然目前DataFusion尚未原生支持WITHIN GROUP语法,但Logfire团队已经向DataFusion项目提交了相关功能请求。在未来的版本中,可能会实现对这一语法的完整支持,从而提供更多样化的查询选择。
对于当前需要百分位数计算功能的用户,approx_percentile_cont函数提供了一个可靠且高效的替代方案,能够满足绝大多数监控和分析场景的需求。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0224
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0143
uni-appA cross-platform framework using Vue.jsJavaScript010
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook04
项目优选
收起
暂无描述
Dockerfile
781
5.1 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
890
2.04 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
470
471
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
707
1.41 K
deepin linux kernel
C
32
16
Ascend Extension for PyTorch
Python
760
970
JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。
Python
2.26 K
677
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.11 K
1.15 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
272
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
2.14 K
224