Apache Arrow C++ Parquet模块默认启用大小统计优化解析

2025-05-18 18:03:47作者：尤峻淳Whitney

Apache Arrow项目中的Parquet C++模块近期做出了一项重要优化——默认启用大小统计功能。这项改进源于社区对性能与功能平衡的深入讨论和验证。

背景与动机

在列式存储格式Parquet中，大小统计信息能够帮助查询引擎更高效地确定需要读取的数据范围。过去由于性能考虑，这项功能默认处于关闭状态。但随着Arrow 45202号PR的优化工作，计算和写入大小统计信息的开销已降至可忽略水平。

技术验证

开发团队通过详尽的基准测试验证了这项变更的合理性。测试覆盖了多种数据类型和场景：

基础类型测试：对Int64类型数据的测试显示，启用大小统计后吞吐量保持在863MB/s左右，与未启用时的864MB/s几乎无差异
字符串类型测试：String类型的写入性能从365MB/s略微降至364MB/s，降幅不到0.3%
嵌套结构测试：List类型的性能影响约3%，List类型影响约4%

值得注意的是，测试还包含了页面索引(page index)的影响评估。结果显示页面索引本身带来的开销极小，Int64类型仅增加33字节元数据，字符串类型增加30字节。

实现细节

这项优化通过修改SizeStatisticsLevel的默认值实现，从原来的None改为ColumnChunk级别。ColumnChunk级别统计提供了列块粒度的尺寸信息，而PageAndColumnChunk级别则额外包含页面粒度信息。

对于嵌套类型如List，由于需要遍历计算元素数量，性能影响略高于基础类型，但仍在可接受范围内。字符串类型由于需要计算实际字节长度，也产生了微小开销。

用户收益

默认启用大小统计后，Parquet读者可以获得以下优势：

更精确的数据跳过能力，减少I/O操作
更好的内存预分配，避免反复调整缓冲区
为未来查询优化奠定基础

特别是对于云存储场景，减少的数据读取量可以直接转化为成本节约。

结论

经过严格验证，Apache Arrow社区决定将Parquet写入时的大小统计功能默认启用。这项改进以极小的写入性能代价换取了显著的读取优化潜力，体现了项目对实际应用场景的深入理解。用户现在无需额外配置即可获得这项优化带来的好处，而需要极致写入性能的场景仍可通过显式配置关闭此功能。

arrow

Apache Arrow is a multi-language toolbox for accelerated data interchange and in-memory processing

项目地址：https://gitcode.com/gh_mirrors/arrow13/arrow

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

450

417

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Apache Arrow C++ Parquet模块默认启用大小统计优化解析

背景与动机

技术验证

实现细节

用户收益

结论

热门内容推荐

最新内容推荐

项目优选

Apache Arrow C++ Parquet模块默认启用大小统计优化解析

背景与动机

技术验证

实现细节

用户收益

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选