Apache DataFusion 分区表逻辑计划序列化问题解析

2025-05-31 19:53:39作者：卓艾滢Kingsley

Apache DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/datafu/datafusion

Apache DataFusion 是一个高性能的查询引擎，它支持多种数据源和查询优化技术。在使用过程中，我们发现了一个关于分区表逻辑计划序列化和反序列化的有趣问题。

问题现象

当使用分区表（特别是 Hive 风格的分区表）时，如果对逻辑计划进行序列化后再反序列化，会导致查询失败。具体表现为 Schema 校验错误，提示字段重复："Error: SchemaError(DuplicateQualifiedField { qualifier: Bare { table: "hive_style" }, name: "year" }, Some(""))"。

问题复现

通过以下步骤可以复现该问题：

创建一个 Hive 风格的分区表（如按 year 和 month 分区）
对该表执行简单查询并获取逻辑计划
将逻辑计划序列化为字节流
从字节流反序列化回逻辑计划
执行反序列化后的计划时出现错误

技术分析

问题的根源在于逻辑计划序列化过程中对分区列的处理。在 DataFusion 的实现中，ListingTable 的分区列是通过额外配置添加的，而不是原始表结构的一部分。当序列化逻辑计划时，当前实现错误地将这些分区列包含在了表的基本 Schema 中。

具体来说，在 proto/src/logical_plan/mod.rs 文件中的相关代码（约 1127 行）在处理表 Schema 时，错误地将分区列包含在内，导致反序列化后 Schema 中出现重复字段。

解决方案

正确的做法应该是：

在序列化过程中区分基础表 Schema 和分区列
反序列化时正确重建分区表结构
确保分区列不会重复出现在基础 Schema 中

影响范围

该问题主要影响以下场景：

使用分区表的查询计划序列化/反序列化
分布式查询场景（如 Ballista）中分区表查询计划的传输
查询计划的持久化存储和恢复

最佳实践

开发人员在使用分区表时应注意：

避免直接序列化包含分区表的逻辑计划
如需序列化，确保使用最新修复版本
在分布式场景下，验证分区表查询计划的正确性

总结

这个问题展示了在复杂查询引擎中处理元数据序列化时的挑战。分区信息作为表结构的一部分但又不同于常规列，需要特殊处理。DataFusion 社区已经识别并修复了这个问题，为分区表的稳定使用提供了保障。

Apache DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/datafu/datafusion

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter