Apache Arrow DataFusion 中 CTE 查询触发 panic 的技术分析

2025-06-14 09:58:21作者：邵娇湘

Apache Arrow DataFusion 是一个高性能的查询引擎，它实现了 SQL 查询的执行能力。在最近的一个版本中，开发者发现了一个关于公共表表达式(CTE)处理的 bug，这个 bug 会导致引擎在执行特定查询时触发 panic。

问题现象

当用户尝试执行一个包含 CTE 的简单查询时，DataFusion 会意外崩溃。具体查询示例如下：

WITH test AS (SELECT i as needle FROM generate_series(1, 10) t(i))
SELECT count(*) FROM test WHERE 1 = 1;

执行这个查询时，系统会报出内部错误，提示物理输入模式与从逻辑输入模式转换的模式不匹配。错误信息明确指出物理模式有1个字段，而逻辑模式有0个字段。

技术背景

在 SQL 查询处理中，公共表表达式(CTE)是一种临时命名结果集，它只在单个 SQL 语句的执行范围内存在。DataFusion 在处理 CTE 时需要完成几个关键步骤：

解析阶段：识别并处理 WITH 子句
逻辑计划生成：为 CTE 创建逻辑执行计划
物理计划生成：将逻辑计划转换为可执行的物理计划
执行阶段：实际执行查询

问题根源

这个 bug 的核心在于模式(schema)验证环节。当 DataFusion 处理包含 CTE 的查询时，特别是在处理 WHERE 子句中的常量表达式(如 1=1)时，系统在验证物理计划输入模式与逻辑计划转换后的模式时出现了不一致。

具体来说，物理计划期望的输入模式包含1个字段(对应于 CTE 的结果列)，而逻辑计划转换后的模式却显示为0个字段。这种不一致导致系统触发了 panic。

影响范围

这个 bug 影响的是特定版本的 DataFusion(CLI v46.0.1)，主要影响包含以下特征的查询：

使用了 WITH 子句定义 CTE
在 WHERE 子句中包含恒真条件(如 1=1)
可能也影响其他类似的常量表达式条件

解决方案

DataFusion 开发团队已经修复了这个问题。修复的核心在于确保在模式转换和验证过程中正确处理 CTE 的输出模式，特别是在处理看似简单的条件表达式时保持模式一致性。

技术启示

这个案例展示了查询引擎开发中的几个重要方面：

模式一致性验证的重要性：即使在处理看似简单的查询时，也需要严格验证各阶段的模式一致性
CTE 处理的复杂性：CTE 虽然语法上简单，但在实现上需要考虑命名空间、作用域和模式传递等多个方面
防御性编程：查询引擎需要能够优雅地处理各种边界情况，而不是直接 panic

对于使用 DataFusion 的开发者来说，这个案例提醒我们在升级版本时需要注意潜在的兼容性问题，特别是在处理复杂查询时。同时，它也展示了开源社区如何快速响应和解决技术问题。

arrow-datafusion

Apache Arrow DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-datafusion

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.25 K

677