Apache Arrow Ballista 中 DDL 语句传播与 INSERT INTO 支持的技术实现

2025-07-09 13:01:04作者：宗隆裙

在分布式计算领域，Apache Arrow Ballista 作为一个基于 Rust 的分布式查询引擎，其 DDL 语句传播机制对于实现完整的数据操作功能至关重要。本文将深入探讨 Ballista 中实现 INSERT INTO 支持的技术挑战与解决方案。

背景与挑战

Ballista 作为 DataFusion 的分布式扩展，其架构设计需要处理客户端与调度器之间的上下文同步问题。当用户执行 INSERT INTO 这类 DML 操作时，系统面临的核心挑战是表引用解析问题。

在现有架构中，Ballista 维护了两个独立的会话上下文：客户端上下文和调度器上下文。这种设计虽然简化了部分实现，但在处理 DML 操作时暴露了表引用解析的局限性。

经过深入的技术评估，我们考虑了多种可能的解决方案：

表引用替换方案：直接在 LogicalPlan::DML 中用实际表替换 TableReference。然而这种方法无法满足表提供者查找的需求，特别是在创建 insert into 执行计划时。
DDL 语句传播方案：修改 BallistaQueryPlanner 以处理 DDL 语句传播。但 DataFusion 的 SessionContext 会立即执行 DDL 语句并将 LogicalPlan::DDL 替换为 LogicalPlan::Empty，导致 DDL 信息无法到达规划器。
目录同步方案：实现客户端与调度器之间的目录同步机制。虽然可行，但需要用户配置远程目录，增加了使用复杂度。
查询执行时同步方案：在 ExecuteQuery 时同步上下文状态。这种方法实现复杂，且容易引入难以维护的代码逻辑。
协议修改方案：将 Ballista 协议从传输逻辑计划改为物理计划。虽然能从根本上解决问题，但需要对现有架构进行大规模改造。

经过综合评估，我们选择了最直接有效的方案：表引用传播。这一方案的核心思想是：

这种方案的优势在于：

在实际实现中，我们特别注意了以下技术要点：

这一实现为 Ballista 的 DML 功能奠定了重要基础。未来我们可以在此基础上：

这一技术演进不仅解决了 INSERT INTO 支持的问题，也为 Ballista 的未来发展提供了宝贵的技术积累。

登录后查看全文