Apache Arrow DataFusion 参数类型推断测试的优化实践

2025-05-31 18:33:28作者：宗隆裙

在 Apache Arrow DataFusion 项目中，参数类型推断是一个重要功能，它允许 SQL 查询中使用占位符参数（如$1），并在执行前推断这些参数的类型。目前项目中的测试代码存在大量重复，这给测试覆盖率的评估和维护带来了挑战。

当前测试实现的问题

现有测试代码采用直接硬编码的方式，每个测试用例都包含以下重复部分：

创建 SQL 查询字符串
生成逻辑执行计划
验证参数类型推断结果
替换参数值为实际值
验证最终执行计划

这种模式导致测试代码冗长且难以一目了然地看出测试覆盖了哪些场景。更重要的是，当需要修改测试逻辑时，需要在多个地方进行相同的更改。

提出的优化方案

建议引入一个专门的测试结构体 ParameterTest，将测试逻辑封装起来。这个结构体包含：

SQL 查询字符串
预期的参数类型映射
参数值列表

结构体提供一个 run 方法，该方法会：

创建逻辑计划
验证参数类型推断
应用参数值
返回初始和最终两个执行计划的字符串表示

优化前后的代码对比

优化前的测试代码需要显式处理每个步骤，而优化后的代码只需定义测试用例并调用 run 方法，大大简化了测试编写。同时，使用 insta 快照测试工具可以方便地验证执行计划是否正确。

技术优势

这种重构带来多个好处：

减少重复代码：测试逻辑集中在一个地方
提高可读性：测试用例定义更清晰
易于维护：修改测试逻辑只需改动一处
更好的覆盖评估：测试用例结构统一，便于统计

实现考虑

在实际实现时，还需要考虑：

错误处理机制
支持更复杂的数据类型
扩展性，以便未来添加新的验证点
与现有测试框架的集成

这种测试模式的改进不仅适用于参数类型推断测试，也可以推广到 DataFusion 的其他测试场景中，为项目带来更健壮和可维护的测试体系。

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

昇腾LLM分布式训练框架

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started