Apache Arrow C++内存泄漏问题分析与优化实践

2025-05-18 09:42:13作者：霍妲思

Apache Arrow is a multi-language toolbox for accelerated data interchange and in-memory processing

项目地址：https://gitcode.com/gh_mirrors/arrow13/arrow

问题背景

在Apache Arrow项目中，当使用C++接口读取Parquet格式数据集时，发现存在显著的内存泄漏问题。特别是在处理具有大量列（如10,000列）但每行数据量较小的数据集时，内存消耗会异常增大，甚至达到原始数据大小的数倍。

问题现象

开发人员观察到以下典型现象：

读取一个包含260个Parquet文件（每个文件1行10,000列）的数据集时，内存消耗高达6GB
当列名长度增加时（如添加128字符前缀），内存消耗进一步增加到11GB
内存使用量随着处理文件数量的增加而线性增长
即使数据读取完成后，内存也未完全释放

技术分析

内存消耗根源

经过深入分析，发现内存消耗主要来自以下几个方面：

Parquet元数据存储：每个Parquet文件的ColumnChunk元数据占用约640字节，对于10,000列的数据集，每个文件就需要约6MB元数据空间
Schema缓存：系统会缓存物理schema信息，特别是当列名较长时，这部分内存消耗尤为显著
内存分配策略：部分内存分配器会缓存已释放的内存块，而非立即归还操作系统

关键数据结构

ColumnChunk：Parquet格式中每个列分块的基础数据结构，包含列的各种元信息
Fragment：Arrow数据集处理中的核心抽象，负责管理数据片段及其元数据
物理Schema：描述数据实际存储结构的元数据信息

优化方案

元数据缓存清理

通过分析代码，发现以下几个关键缓存需要及时清理：

metadata_：基础元数据缓存
manifest_：文件清单缓存
original_metadata_：原始元数据缓存
physical_schema_：物理schema缓存

添加对这些缓存的清理逻辑后，内存使用量显著下降：

仅清理前三项：内存降至原来的30%
同时清理physical_schema_：内存进一步降至18%

实现细节

优化后的清理逻辑需要注意以下几点：

清理时机：必须在所有依赖这些缓存的后续操作完成后执行清理
安全性：确保清理后系统仍能正常工作，如支持后续的再次读取操作
性能平衡：避免过于频繁的清理导致性能下降

验证与效果

通过多种方式验证了优化效果：

内存分析工具：使用valgrind/massif等工具可视化内存使用情况
基准测试：对比优化前后的内存消耗峰值和稳定值
实际场景测试：在真实业务数据集上验证优化效果

测试结果表明，优化后系统能够：

有效控制内存增长
正确处理后续操作
保持稳定的性能表现

最佳实践建议

基于此次优化经验，建议开发者在处理类似场景时：

对于超宽表（列数特别多）的数据集，考虑分批处理或列裁剪
定期监控内存使用情况，特别是在处理大量小文件时
合理配置内存分配策略，根据场景选择jemalloc、mimalloc或系统分配器
及时更新到包含此优化的Arrow版本

总结

Apache Arrow项目通过本次优化，显著改善了处理Parquet数据集时的内存效率问题。这为处理大规模数据分析任务，特别是那些包含大量列的数据集，提供了更好的资源利用率和稳定性。该优化已被合并到主分支，将在后续版本中提供给所有用户。

Apache Arrow is a multi-language toolbox for accelerated data interchange and in-memory processing

项目地址：https://gitcode.com/gh_mirrors/arrow13/arrow

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

MindQuantum is a general software library supporting the development of applications for quantum computation.

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！