Apache Arrow DataFusion 数据源架构解析

2025-06-14 08:54:07作者：农烁颖Land

arrow-datafusion

Apache Arrow DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-datafusion

核心组件关系图

在Apache Arrow DataFusion项目中，数据读取模块采用分层架构设计，主要包含以下核心组件：

                   ┌─────────────────────┐                 
                   │                     │                 
                   │   DataSourceExec    │                 
                   │                     │                 
                   └─────────────────────┘                 
                              │                            
                              │                            
                   ┌──────────▼──────────┐                 
                   │                     │                 
                   │     DataSource      │                 
                   │                     │                 
                   └─────────────────────┘                 
                              │                            
           ┌──────────────────┴────────────────┐           
┌──────────▼──────────┐             ┌──────────▼──────────┐
│                     │             │                     │
│   FileScanConfig    │             │ MemorySourceConfig  │
│                     │             │                     │
└─────────────────────┘             └─────────────────────┘
           │                                               
           │                                               
           │                                               
┌──────────▼──────────┐                                    
│                     │                                    
│     FileSource      │                                    
│                     │                                    
└─────────────────────┘                                    
           │                                               
           │                                               
           │                                               
┌──────────▼──────────┐                                    
│     ArrowSource     │                                    
│         ...         │                                    
│    ParquetSource    │                                    
└─────────────────────┘                                    
           │                                               
           │                                               
           │                                               
┌──────────▼──────────┐                                    
│                     │                                    
│    ParquetOpener    │                                    
│                     │                                    
└─────────────────────┘                                    
           │                                               
           │                                               
           │                                               
┌──────────▼──────────┐                                    
│                     │                                    
│ RecordBatch Stream  │                                    
│                     │                                    
└─────────────────────┘

架构分层解析

1. 执行层 (DataSourceExec)

作为查询计划执行树的物理节点，负责调度数据读取任务。这是查询引擎与数据源交互的最高层抽象，处理分区读取、并行执行等逻辑。

2. 数据源抽象层 (DataSource)

定义统一的数据源接口，包含：

获取数据模式(schema)的能力
数据分片(partition)信息
创建具体扫描器(Scanner)的方法

3. 配置层 (ScanConfig)

具体数据源的配置实现：

FileScanConfig：文件扫描配置，包含文件路径、格式等
MemorySourceConfig：内存数据配置，处理内存中的RecordBatch

4. 文件源实现层 (FileSource)

针对文件系统的通用抽象，处理：

文件列表发现
分区过滤
文件格式路由

5. 格式特定实现层

各文件格式的具体实现：

ParquetSource：Apache Parquet列式存储
ArrowSource：Arrow内存格式
其他格式通过实现相同接口扩展

6. 底层读取器 (Opener)

实际执行文件解码的组件，如：

ParquetOpener：使用parquet-rs库读取文件
返回RecordBatch流式迭代器

设计优势

清晰的职责分离：每层只关注单一职责，上层不依赖具体实现细节
灵活的可扩展性：新增文件格式只需实现对应Source和Opener
统一的执行接口：无论底层数据源如何变化，执行引擎都通过DataSourceExec统一调度
配置与执行解耦：ScanConfig允许复用相同配置创建多个执行实例

典型数据流

查询计划生成DataSourceExec节点
根据配置创建对应DataSource实例
DataSource初始化具体文件扫描器
通过格式特定Source获取Opener
Opener返回RecordBatch流
DataSourceExec收集所有分区的数据流

这种分层设计使得DataFusion能够以统一的方式处理各种数据源，同时保持各格式特定的优化空间。开发者可以方便地扩展支持新的数据格式，而查询优化器和执行引擎无需关心底层细节。

arrow-datafusion

Apache Arrow DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-datafusion

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库