DataFusion 中逻辑计划反序列化问题分析：LEFT ANTI/SEMI JOIN 的 SQL 生成问题

2025-05-31 11:07:25作者：余洋婵Anita

在 Apache DataFusion 项目中，当使用逻辑计划反序列化功能将包含 LEFT ANTI JOIN 或 LEFT SEMI JOIN 操作符的逻辑计划转换为 SQL 时，生成的 SQL 语句在某些数据库方言中会出现兼容性问题。这个问题尤其在使用 PostgreSQL、MySQL 或 SQLite 等数据库方言时表现明显。

问题背景

DataFusion 是一个用 Rust 编写的查询引擎，它提供了将逻辑计划转换为 SQL 语句的功能。在优化查询计划时，系统可能会将某些操作（如 NOT IN 子查询）转换为 LEFT ANTI JOIN 这种更高效的执行方式。然而，当需要将这些优化后的逻辑计划重新转换为 SQL 语句时，特别是在跨数据库联邦查询场景下，生成的 SQL 可能会不符合目标数据库的语法规范。

问题表现

具体来说，当逻辑计划中包含：

LEFT ANTI JOIN（左反连接）操作符时，反序列化会生成包含"LEFT ANTI JOIN"的 SQL 语句
LEFT SEMI JOIN（左半连接）操作符时，反序列化会生成包含"LEFT SEMI JOIN"的 SQL 语句

这些语法结构在 PostgreSQL、MySQL 和 SQLite 等主流数据库中并不支持，导致生成的 SQL 无法在这些数据库上执行。

技术分析

从技术实现角度看，这个问题涉及几个关键层面：

逻辑计划优化：查询优化器将 NOT IN 子查询等结构转换为更高效的 JOIN 操作是常见的优化手段
SQL 反序列化：将优化后的逻辑计划转换回 SQL 时，需要考虑到目标数据库的语法支持
方言适配：不同数据库系统对 JOIN 类型的支持程度不同，需要针对不同方言做适配

解决方案探讨

针对这个问题，可以考虑以下几种解决方案方向：

方言感知的反序列化：在反序列化时，根据目标数据库方言将特殊的 JOIN 类型转换为该方言支持的等价形式
- 例如将 LEFT ANTI JOIN 转换为 NOT EXISTS 或 NOT IN 子查询
- 将 LEFT SEMI JOIN 转换为 EXISTS 或 IN 子查询
优化器配置：提供选项控制优化器是否生成这些特殊 JOIN 类型，特别是在需要反序列化为特定方言 SQL 的场景
下游处理：将方言适配的责任转移到使用 DataFusion 的上层应用中