Apache DataFusion中的通配符选择问题分析与解决方案

2025-05-31 17:21:12作者：韦蓉瑛

背景介绍

Apache DataFusion是一个用Rust编写的现代化分布式查询引擎，它提供了SQL和DataFrame API两种方式来构建查询计划。在最新版本中，开发团队发现了一个与通配符选择(Wildcard Selection)相关的回归问题。

问题描述

在DataFusion的DataFrame API中，使用wildcard()函数进行全列选择的功能出现了失效的情况。这个问题源于PR #15170对Expr::Wildcard表达式的废弃处理，但该修改没有充分考虑到DataFrame API的使用场景。

技术分析

原有实现机制

在旧版本中，DataFrame的select方法通过wildcard()函数生成一个Expr::Wildcard表达式，这个表达式会被传递到查询计划构建过程中，最终扩展为所有列的引用。

问题根源

随着代码演进，Expr::Wildcard被标记为废弃(deprecated)，导致基于DataFrame API的通配符选择功能失效。这表明API设计上存在不一致性：SQL层面的通配符处理与DataFrame API层面的处理没有保持同步。

解决方案探讨

方案一：引入WildcardOptions参数

可以在Projection结构体中新增一个wildcard字段，专门处理通配符选择的情况：

impl Projection {
    pub fn try_new_with_schema(
        expr: Vec<Expr>,
        wildcard: Option<WildcardOptions>,
        input: Arc<LogicalPlan>,
        schema: DFSchemaRef,
    ) -> Result<Self>

方案二：设计新的枚举类型

更结构化的方式是定义一个专门的枚举类型来统一处理各种选择表达式：

enum ProjectionExprs {
    Exprs(Vec<Expr>),
    Wildcard(WildcardOptions),
}

方案三：新增专用API方法

为了提供更好的开发者体验，可以添加专门的API方法如select_all或project_all来明确表示全列选择操作，避免使用通用的select方法配合通配符表达式。

影响评估

这种改动属于API级别的变更，可能会影响：

现有的DataFrame API使用者
查询计划的序列化/反序列化
优化器对通配符表达式的处理逻辑

需要仔细评估兼容性影响，并考虑提供适当的迁移路径。

结论

DataFusion作为快速发展的查询引擎，在API演进过程中难免会遇到类似的设计挑战。通过引入更明确的类型系统和专用API方法，不仅可以解决当前的通配符选择问题，还能为未来的功能扩展打下更坚实的基础。这种演进也体现了Rust语言强调显式类型安全和明确API设计的哲学。

datafusion

Apache DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/datafu/datafusion

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

515

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

647

284

Apache DataFusion中的通配符选择问题分析与解决方案

背景介绍

问题描述

技术分析

原有实现机制

问题根源

解决方案探讨

方案一：引入WildcardOptions参数

方案二：设计新的枚举类型

方案三：新增专用API方法

推荐实现

影响评估

结论

热门内容推荐

最新内容推荐

项目优选

Apache DataFusion中的通配符选择问题分析与解决方案

背景介绍

问题描述

技术分析

原有实现机制

问题根源

解决方案探讨

方案一：引入WildcardOptions参数

方案二：设计新的枚举类型

方案三：新增专用API方法

推荐实现

影响评估

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选