Apache DataFusion 磁盘管理器构建模式优化实践

2025-05-31 21:19:06作者：邵娇湘

背景介绍

在Apache DataFusion项目中，DiskManager作为管理临时文件存储的核心组件，其构建方式一直采用传统的配置对象模式。随着项目发展，开发者们发现现有的构建API在使用体验上存在优化空间，特别是在与其他组件的构建方式保持一致方面。

现有问题分析

当前DiskManager的创建方式存在几个明显痛点：

API风格不一致：与DataFusion项目中广泛使用的构建器模式（如RuntimeEnvBuilder）不统一，增加了用户的学习成本。
使用不够直观：需要通过DiskManagerConfig对象间接创建，不如链式调用的构建器模式直观。
扩展性受限：随着配置参数的增多，传统构造方式难以优雅地支持可选参数。

解决方案设计

经过社区讨论，决定采用构建器模式重构DiskManager的创建方式，具体设计如下：

核心变更点

类型重命名：将现有的DiskManagerConfig重命名为DiskManagerBuilder，使其命名更符合构建器模式的惯例。
构建器接口：

let manager: Arc<DiskManager> = DiskManagerBuilder::new()
  .with_max_temp_directory_size(100*1024*1024)
  .build_arc();

兼容性处理：
- 保留原有类型作为已弃用别名
- 逐步淘汰旧的try_new构造方法
- 完善文档示例

技术优势

一致性：与RuntimeEnv等组件的构建方式保持一致，降低用户认知负担。
可读性：链式调用使代码更清晰表达意图。
可扩展性：方便后续添加新的配置选项而不破坏现有API。
安全性：构建器模式可以在build时进行参数校验，确保对象构造的有效性。

实现考量

在实现过程中需要注意几个关键点：

线程安全：确保构建出的DiskManager可以安全地在多线程环境中使用。
资源管理：合理处理临时目录大小限制等资源约束。
错误处理：在build阶段提供清晰的错误信息。

最佳实践建议

对于使用DataFusion的开发者，建议：

优先使用新的构建器模式创建DiskManager实例。
对于需要共享的DiskManager，直接使用build_arc方法获取Arc封装。
及时迁移旧代码，避免使用即将废弃的API。

未来展望

这一改进不仅优化了当前的使用体验，也为后续功能扩展奠定了基础。例如可以方便地添加：

临时文件存储策略配置
磁盘IO监控集成
自定义清理机制等高级功能

通过这种符合Rust生态惯例的API设计，DataFusion在保持高性能的同时，也提供了更优秀的开发者体验。

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用