Apache Arrow Rust实现中Parquet读取批处理大小的限制解析

2025-07-06 21:43:58作者：仰钰奇

Official Rust implementation of Apache Arrow

项目地址：https://gitcode.com/gh_mirrors/arro/arrow-rs

背景介绍

在使用Apache Arrow的Rust实现(arrow-rs)处理大规模Parquet文件时，开发者bonsairobo遇到了一个关于记录批处理(RecordBatch)大小控制的意外行为。他原本期望通过设置最大批处理大小来一次性读取整个Parquet文件列数据，但实际结果却分成了多个小批次。

问题现象

bonsairobo尝试将一个包含1亿行数据的单列Parquet文件读取为一个RecordBatch，为此他使用了ParquetRecordBatchStreamBuilder并设置了with_batch_size(usize::MAX)，期望获得单个包含所有数据的批处理。然而实际运行时，数据被分割成了96个较小的批处理。

技术分析

经过项目维护者tustvold的说明，我们了解到这种行为实际上是设计使然。ParquetRecordBatchStreamBuilder在读取Parquet文件时有一个内在限制：它每次最多只读取一个行组(row group)的数据，而不会跨行组合并数据。

Parquet文件格式本身采用行列混合存储，数据被划分为多个行组，每个行组包含一定数量的行。这种设计有利于并行处理和高效压缩。在Rust实现中，即使开发者设置了很大的批处理大小，读取逻辑仍会遵循Parquet文件的行组边界。

解决方案

要真正实现单批次读取整个文件，需要从写入阶段就进行控制。通过在创建Parquet文件时设置足够大的行组大小，可以确保整个文件只有一个行组：

let mut writer = AsyncArrowWriter::try_new(
    file_writer,
    schema,
    Some(
        WriterProperties::builder()
            .set_max_row_group_size(usize::MAX)
            .build(),
    ),
).unwrap();

这种方法在写入阶段就确保文件只有一个行组，这样在读取时自然就能获得单个RecordBatch。

性能考量

虽然技术上可以实现单批次读取，但tustvold指出这种做法通常不是最佳实践。处理大规模数据时，采用流式处理、分批次处理的方式通常具有以下优势：

内存使用更高效，避免一次性加载全部数据
处理性能更好，可以并行处理多个批次
对系统资源要求更低，适合处理超大规模数据

结论

Apache Arrow Rust实现中对Parquet文件的读取行为遵循了文件格式的原始设计理念。开发者应该理解这种设计背后的合理性，并根据实际需求选择适当的处理方式。对于确实需要单批次处理的场景，应该在写入阶段就进行相应配置，而不是试图在读取阶段强制合并。

Official Rust implementation of Apache Arrow

项目地址：https://gitcode.com/gh_mirrors/arro/arrow-rs

登录后查看全文

项目优选

收起

deepin linux kernel

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。