Apache Arrow-RS项目中的Parquet统计信息优化方案

2025-07-01 13:48:56作者：伍霜盼Ellen

背景介绍

在Apache Arrow-RS项目中，Parquet文件格式的统计信息存储机制存在冗余问题。Parquet文件格式目前提供了三种统计信息存储位置：列块(ColumnChunk)元数据、数据页(Data Page)头部以及列索引(ColumnIndex)。这种多位置存储机制导致了存储空间的浪费和性能问题。

当前实现的问题

当前实现中，EnabledStatistics::Page选项会同时在三个位置写入统计信息：

列块元数据中的统计信息
数据页头部的统计信息
列索引中的统计信息

这种实现方式存在两个主要问题：

存储空间浪费：数据页头部的统计信息与列索引中的统计信息实际上是重复的
兼容性问题：数据页头部的统计信息在现代Parquet阅读器中甚至无法被访问，其功能已被列索引完全取代

技术分析

Parquet格式规范明确指出："支持ColumnIndex的阅读器不应再使用页面统计信息。在写入ColumnIndex结构时同时写入页面级统计信息的唯一原因是为了支持旧的阅读器(不推荐)"。这表明当前实现方式已经不符合最佳实践。

优化方案

经过社区讨论，提出了三种优化方案：

重新定义EnabledStatistics::Page：保持API不变，但修改其行为，使其只写入列块和列索引统计信息，不再写入数据页头部统计信息。同时新增一个显式选项来控制是否写入数据页统计信息。
新增ChunkAndIndex选项：添加一个新的枚举变体，专门用于写入列块和列索引统计信息，而不写入数据页头部统计信息。
细化统计信息选项：将统计信息选项细化为None、Chunk、ColumnIndex和ColumnIndexAndPage四种情况，提供更精确的控制。