Apache Kyuubi 中查询状态提前返回但作业仍在执行的问题分析

2025-07-08 02:18:03作者：齐添朝

问题现象

在使用Apache Kyuubi提交Spark查询时，发现一个异常现象：当执行特定类型的SQL查询时，Kyuubi会快速返回FINISHED状态，但实际上Spark作业仍在后台继续执行。这种情况特别容易发生在左连接(LEFT JOIN)查询中，当左表为空而右表数据量较大时。

通过多次测试发现，这个问题在以下场景中可稳定复现：

典型的问题SQL模式如下：

SELECT *
FROM (SELECT uid FROM empty_table WHERE condition) t1
LEFT JOIN (SELECT vendor_id FROM large_table) t2 
ON t1.uid = t2.vendor_id
LIMIT 5;

Spark的查询优化器(AQE)在检测到LEFT JOIN的一侧为空时，会进行优化，直接返回空结果集。这是Spark的一种合理优化行为，因为无论另一侧数据如何，结果都必然为空。

Kyuubi作为Spark SQL的网关服务，其状态管理基于Spark作业的执行情况。当Spark优化器确定结果为空时，Kyuubi会立即收到FINISHED状态，这是预期的行为。

问题的关键在于，虽然查询结果已经确定为空，但Spark仍在后台继续处理右表的大规模数据。理想情况下，这些不必要的计算应该被立即取消。经过深入分析，发现：

Apache Kyuubi社区已经针对此问题提交了修复方案，主要改进点包括：

对于使用受影响版本的用户，可以采取以下临时措施：

这个问题展示了分布式查询引擎中状态管理和资源协调的复杂性，也提醒我们在使用高阶抽象服务时，需要理解其底层实现机制。

登录后查看全文