首页
/ Apache Arrow DataFusion 中 CTE 查询触发 panic 的技术分析

Apache Arrow DataFusion 中 CTE 查询触发 panic 的技术分析

2025-06-14 05:29:06作者:邵娇湘

Apache Arrow DataFusion 是一个高性能的查询引擎,它实现了 SQL 查询的执行能力。在最近的一个版本中,开发者发现了一个关于公共表表达式(CTE)处理的 bug,这个 bug 会导致引擎在执行特定查询时触发 panic。

问题现象

当用户尝试执行一个包含 CTE 的简单查询时,DataFusion 会意外崩溃。具体查询示例如下:

WITH test AS (SELECT i as needle FROM generate_series(1, 10) t(i))
SELECT count(*) FROM test WHERE 1 = 1;

执行这个查询时,系统会报出内部错误,提示物理输入模式与从逻辑输入模式转换的模式不匹配。错误信息明确指出物理模式有1个字段,而逻辑模式有0个字段。

技术背景

在 SQL 查询处理中,公共表表达式(CTE)是一种临时命名结果集,它只在单个 SQL 语句的执行范围内存在。DataFusion 在处理 CTE 时需要完成几个关键步骤:

  1. 解析阶段:识别并处理 WITH 子句
  2. 逻辑计划生成:为 CTE 创建逻辑执行计划
  3. 物理计划生成:将逻辑计划转换为可执行的物理计划
  4. 执行阶段:实际执行查询

问题根源

这个 bug 的核心在于模式(schema)验证环节。当 DataFusion 处理包含 CTE 的查询时,特别是在处理 WHERE 子句中的常量表达式(如 1=1)时,系统在验证物理计划输入模式与逻辑计划转换后的模式时出现了不一致。

具体来说,物理计划期望的输入模式包含1个字段(对应于 CTE 的结果列),而逻辑计划转换后的模式却显示为0个字段。这种不一致导致系统触发了 panic。

影响范围

这个 bug 影响的是特定版本的 DataFusion(CLI v46.0.1),主要影响包含以下特征的查询:

  • 使用了 WITH 子句定义 CTE
  • 在 WHERE 子句中包含恒真条件(如 1=1)
  • 可能也影响其他类似的常量表达式条件

解决方案

DataFusion 开发团队已经修复了这个问题。修复的核心在于确保在模式转换和验证过程中正确处理 CTE 的输出模式,特别是在处理看似简单的条件表达式时保持模式一致性。

技术启示

这个案例展示了查询引擎开发中的几个重要方面:

  1. 模式一致性验证的重要性:即使在处理看似简单的查询时,也需要严格验证各阶段的模式一致性
  2. CTE 处理的复杂性:CTE 虽然语法上简单,但在实现上需要考虑命名空间、作用域和模式传递等多个方面
  3. 防御性编程:查询引擎需要能够优雅地处理各种边界情况,而不是直接 panic

对于使用 DataFusion 的开发者来说,这个案例提醒我们在升级版本时需要注意潜在的兼容性问题,特别是在处理复杂查询时。同时,它也展示了开源社区如何快速响应和解决技术问题。

登录后查看全文
热门项目推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K