Apache Arrow DataFusion 分区Parquet文件读取的正确方式

2025-06-14 05:44:31作者：幸俭卉

在Apache Arrow DataFusion项目中，用户在使用CLI工具读取分区存储的Parquet文件时，经常会遇到路径匹配的问题。本文将详细介绍正确的使用方法以及背后的技术原理。

问题背景

当数据以分区形式存储在对象存储（如GCS）中时，典型的路径结构如下：

gs://bucket/day=2025-1-1/randomid123.parquet

许多用户会尝试使用通配符模式来匹配这些文件，例如：

CREATE EXTERNAL TABLE test(
  message TEXT,
  day DATE
)
STORED AS PARQUET
LOCATION 'gs://bucket/*.parquet';

或者更全面的通配符：

LOCATION 'gs://bucket/**/*.parquet'

然而，这两种方式都会导致404错误，因为DataFusion当前版本的对象存储API并不完全支持通配符路径匹配。

正确使用方法

DataFusion实际上提供了更简单的方式来读取分区Parquet数据，只需指定分区根目录即可：

CREATE EXTERNAL TABLE test(
  message TEXT,
  day DATE
)
STORED AS PARQUET
LOCATION 'gs://bucket/';

这种方式会自动识别分区目录结构并加载所有Parquet文件。分区列（如day）会被自动识别并作为表的一部分。

技术原理

DataFusion的Parquet读取器内置了分区发现机制：

当给定一个目录路径时，系统会递归扫描该目录下的所有Parquet文件
对于Hive风格的分区目录（如day=2025-1-1），系统会自动提取分区键值
分区列会被自动添加到表结构中，无需在CREATE TABLE语句中显式声明

注意事项

目前仅支持对象存储根目录的直接指定，不支持通配符模式
分区列的数据类型需要与目录命名格式匹配（如DATE类型对应day=2025-1-1）
对于本地文件系统测试，通配符可能工作，但这属于特殊情况，不应作为生产环境的参考

未来改进

社区已经注意到通配符支持的需求，相关讨论正在进行中。未来版本可能会增强路径匹配功能，使其支持更灵活的文件选择模式。

对于当前用户，建议遵循官方推荐的分区目录结构，并使用简单的根目录路径来确保兼容性和稳定性。

arrow-datafusion

Apache Arrow DataFusion SQL Query Engine

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-datafusion

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

515

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

647

284