Apache Arrow项目中的Parquet数据集读取内存泄漏问题分析

2025-05-15 14:57:14作者：袁立春Spencer

问题背景

在Apache Arrow项目中，用户报告了一个关于读取Parquet数据集时出现的内存泄漏问题。这个问题特别出现在处理具有大量列（如10,000列）但每行数据量很少（如单行）的Parquet文件时。测试表明，当读取这样的数据集时，内存使用量会显著增加，远超过实际加载数据的大小。

问题现象

当使用PyArrow 19.0.0读取包含260个Parquet文件（每个文件1行，10,000列）的数据集时，内存使用量达到了约6GB。更令人惊讶的是，当列名长度增加到128个字符时，内存使用量进一步增加到约11GB。这种内存消耗与预期不符，因为实际加载的数据量远小于此。

技术分析

内存消耗来源

经过深入分析，发现内存消耗主要来自以下几个方面：

Parquet元数据存储：每个Parquet文件的ColumnChunk元数据占用约640字节。对于一个包含10,000列和260个文件的数据集，这意味着约1.6GB的元数据存储。
列名存储：长列名会显著增加内存使用，因为每个文件的元数据中都存储了完整的列名信息。
Schema缓存：Arrow在读取过程中会缓存物理schema信息，这在宽表情况下会占用大量内存。

内存泄漏点

通过内存分析工具（如valgrind/massif）发现，主要的内存占用来自：

Parquet schema节点到schema字段的映射（约342.9MB）
名称到索引的映射（约155.4MB）
Parquet格式的ColumnChunk向量（约109.9MB）

解决方案

经过多次测试和验证，发现以下方法可以有效减少内存使用：

清理缓存元数据：在读取完成后，显式清理以下缓存：
- metadata_
- manifest_
- original_metadata_
- physical_schema_
优化内存分配策略：使用不同的内存池实现（如jemalloc、mimalloc或系统分配器）可能有助于内存管理。
强制释放未使用内存：虽然不推荐在生产环境中使用，但在诊断时可以尝试调用MemoryPool的ReleaseUnused方法。

技术实现细节

在Arrow的代码实现中，关键优化点在于Scanner类的实现。通过在适当的位置清理Fragment的缓存数据，可以显著减少内存使用：

void ClearCachedMetadata() {
  metadata_.reset();
  manifest_.reset();
  original_metadata_.reset();
  physical_schema_.reset();  // 新增的优化点
}

这一改动使得内存使用量从原来的9.58GB降低到1.73GB，减少了约82%。

最佳实践建议

对于需要处理宽表Parquet数据的用户，建议：

合理设计数据模型：避免使用极端宽表设计，Parquet格式更适合列数适中但行数多的场景。
选择性读取：只读取需要的列，可以显著减少内存使用。
监控内存使用：使用Arrow提供的内存分析工具（如MemoryPool的统计功能）监控内存使用情况。
及时清理缓存：在数据处理完成后，及时清理不再需要的元数据缓存。

未来优化方向

Parquet社区正在讨论重新设计元数据存储格式，以解决宽表场景下的元数据加载开销问题。一些初步的概念验证已经显示出积极的结果，这将是一个值得期待的未来改进方向。

结论

通过深入分析Apache Arrow中Parquet读取的内存使用情况，我们识别出了元数据缓存是内存消耗的主要来源。通过合理的缓存清理策略，可以显著降低内存使用量。这一经验不仅解决了当前的问题，也为未来处理类似场景提供了有价值的参考。

arrow

Apache Arrow is the universal columnar format and multi-language toolbox for fast data interchange and in-memory analytics

项目地址：https://gitcode.com/GitHub_Trending/arrow3/arrow

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Apache Arrow项目中的Parquet数据集读取内存泄漏问题分析

问题背景

问题现象

技术分析

内存消耗来源

内存泄漏点

解决方案

技术实现细节

最佳实践建议

未来优化方向

结论

热门内容推荐

最新内容推荐

项目优选

Apache Arrow项目中的Parquet数据集读取内存泄漏问题分析

问题背景

问题现象

技术分析

内存消耗来源

内存泄漏点

解决方案

技术实现细节

最佳实践建议

未来优化方向

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选