Apache Arrow-RS项目中的Parquet统计信息优化实践
背景介绍
在Apache Arrow-RS项目中,Parquet文件格式的写入功能默认会将列的最小值和最大值完整地保存在文件元数据和每个页面头中。这种设计在处理大型二进制或字符串列(如JSON大对象)时,会导致存储空间急剧膨胀,出现极端情况下的性能问题。
问题分析
当前实现中,当统计功能启用时,Arrow-RS会为每列保存完整的min/max值。对于大型字符串列,这意味着两个可能非常大的值会被同时存储在文件级元数据和每个页面头中。测试表明,在某些极端情况下,一个3MB的Parquet文件中,统计信息就占据了2.1MB的空间。
解决方案
项目团队提出了设置默认统计信息截断长度的解决方案。通过引入WriterPropertiesBuilder::set_statistics_truncate_length和WriterPropertiesBuilder::set_column_index_truncate_length方法,开发者可以控制统计值的最大长度。目前这些参数默认值为None(无限制),建议将其改为合理的默认值(如128字节)。
技术考量
-
截断长度选择:128字节足够捕获所有原始数据类型和字符串排序信息,同时避免了存储过大的统计值。
-
统计精确性:随着统计信息中
exact标志的引入,即使截断统计值也不会影响查询优化器的决策能力。 -
兼容性考虑:该变更不会破坏现有功能,只是优化了默认行为。需要完整统计值的用户仍可通过显式设置None来保留原有行为。
深入讨论
在讨论过程中,团队还发现了更深入的问题:
-
页面级统计与列索引的关系:Parquet规范建议,当写入列索引时,可以不必写入页面级统计信息。这引发了关于
EnabledStatistics枚举是否需要重构的思考。 -
默认值一致性:目前
max_column_index_truncate_length默认值为64字节,而统计截断长度无限制,这种不一致性需要统一。
实施建议
- 优先实现统计截断长度的默认值设置(128字节)
- 后续考虑重构统计启用选项,增加仅启用块级和列索引统计的选项
- 完善相关文档,明确说明各参数的默认行为和最佳实践
总结
通过对Parquet统计信息存储的优化,Arrow-RS项目能够显著减少大型字符串列场景下的存储开销,同时保持查询优化的有效性。这一改进体现了开源社区对性能优化的持续追求,也为用户提供了更合理的默认配置。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0172
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook093
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
BitCPM-CANN-8BBitCPM-CANN 是首个基于华为昇腾 NPU 原生构建的端到端 1.58 位(三值化)大语言模型训练系统。该系统将量化感知训练(QAT)集成到 Megatron-LM 框架中,并结合 MindSpeed 加速,覆盖了从自定义三值算子到基于昇腾 910B 的分布式并行训练的完整训练栈。Python00
MiniCPM5-1BMiniCPM5-1B,这是 MiniCPM5 系列的首款模型。它是一个专为端侧、本地部署和资源受限场景打造的 10 亿参数密集型 Transformer 模型,达到了 10 亿参数级开源模型的 SOTA 水平Jinja00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0239