Daft SQL引擎中的JOIN与聚合查询问题解析

2025-06-29 17:39:14作者：冯爽妲Honey

问题现象

在Daft项目中，当执行同时包含显式和隐式JOIN的SQL查询时，如果聚合函数中引用了特定表的列，查询会失败并抛出"Table not found"错误。这种查询模式在TPC-DS等标准基准测试中相当常见。

问题复现

通过以下Python代码可以复现该问题：

tbl_1 = daft.from_pydict({
    'id': [1,2,3],
    'val': ['a','b','c']
})

tbl_2 = daft.from_pydict({
    'id': [1,2,4], 
    'val2': ['x','y','z']
})

tbl_3 = daft.from_pydict({
    'id': [1,2,5],
    'val3': ['m','n','o'] 
})

daft.sql("""
select count(tbl_3.val3), tbl_2.val2
from tbl_1 
join tbl_2 on tbl_1.id = tbl_2.id, tbl_3
where tbl_1.id = tbl_3.id
group by tbl_2.val2
""").collect()

预期行为

正常情况下，SQL引擎应该能够正确处理这种混合JOIN类型的查询，并返回正确的结果。以DuckDB为例，它会返回以下结果：

┌───────────────────┬─────────┐
│ count(tbl_3.val3) │  val2   │
│       int64       │ varchar │
├───────────────────┼─────────┤
│                 1 │ y       │
│                 1 │ x       │
└───────────────────┴─────────┘

技术分析

这个问题揭示了Daft SQL引擎在处理复杂JOIN操作时的几个关键点：

JOIN类型混合：查询中同时使用了显式JOIN(join tbl_2 on...)和隐式JOIN(,连接tbl_3)，这种混合使用在SQL标准中是允许的，但实现起来需要特别注意作用域问题。
作用域管理：在构建查询计划时，引擎需要正确管理各表的作用域，确保在聚合阶段仍然能够访问到所需的表引用。
查询计划生成：问题可能出现在将SQL解析为逻辑计划，或从逻辑计划转换为物理计划的过程中，表引用信息在某个转换步骤中丢失。
聚合函数处理：聚合函数中引用的列需要正确解析其所属的表，特别是在GROUP BY子句中也引用了同一表的情况下。