DataFusion项目参数类型推断测试的优化实践

2025-05-31 01:59:33作者：申梦珏Efrain

Apache DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/datafu/datafusion

在Apache DataFusion项目中，参数类型推断是一个重要功能，它允许SQL查询使用参数化查询（如$1、$2等占位符），并在执行前推断这些参数的类型。然而，当前的测试实现存在大量重复代码，使得测试维护和理解变得困难。

问题现状

当前测试代码中，每个参数类型推断测试都包含以下重复部分：

创建SQL查询字符串
生成逻辑计划
验证参数类型推断结果
替换参数值为实际值
验证最终逻辑计划

这种模式导致测试代码冗长且难以一目了然地看出测试覆盖了哪些场景。更重要的是，当需要修改测试逻辑时，需要在多个地方进行相同的更改，增加了维护成本。

解决方案设计

为了解决这个问题，我们可以引入一个专门的测试结构体ParameterTest，它将封装所有测试相关的信息：

struct ParameterTest {
    sql: &'static str,                // 测试SQL语句
    expected_types: Vec<(&'static str, Option<DataType>)>, // 预期参数类型
    param_values: Vec<ScalarValue>,   // 参数值
}

这个结构体将提供一个run方法，该方法会：

根据SQL创建逻辑计划
验证参数类型推断结果是否符合预期
使用提供的参数值替换占位符
返回包含初始和最终逻辑计划的格式化字符串

优化后的测试示例

优化后的测试代码将更加简洁明了：

#[test]
fn test_infer_types_from_predicate() {
    let test = ParameterTest {
      sql: "SELECT id, age FROM person WHERE age = $1",
      expected_types: vec![("$1", Some(DataType::Int32))],
      param_values: vec![ScalarValue::Int32(Some(10))],
    };
 
    assert_snapshot!(test.run(), @r#"
 ** Initial Plan:
    Projection: person.id, person.age
      Filter: person.age = $1
        TableScan: person
 ** Final Plan:
    Projection: person.id, person.age
      Filter: person.age = Int32(10)
        TableScan: person
    "#);
}

技术优势

代码复用：将公共测试逻辑封装在ParameterTest中，避免重复
可读性提升：测试意图更加清晰，一眼就能看出测试场景
维护简化：修改测试逻辑只需在一个地方进行
覆盖可视化：更容易看出哪些场景已被覆盖，哪些尚未测试
快照测试：结合insta的快照测试功能，可以轻松验证逻辑计划的正确性

实现细节

在实际实现中，ParameterTest的run方法将执行以下步骤：

使用DataFusion的SQL解析器将SQL转换为逻辑计划
调用get_parameter_types方法获取参数类型推断结果
验证推断结果与预期一致
使用with_param_values方法替换参数占位符
格式化初始和最终逻辑计划为字符串
返回包含两个计划的可读性强的字符串

这种设计不仅适用于简单的参数推断测试，还可以轻松扩展到更复杂的场景，如多参数、嵌套查询、不同类型参数等测试用例。

总结

通过引入ParameterTest结构体，我们显著提升了DataFusion项目中参数类型推断测试的可维护性和可读性。这种模式不仅适用于当前场景，也可以作为其他类似测试的参考模板，体现了良好的测试代码设计原则。

Apache DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/datafu/datafusion

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统