Kyuubi项目中FetchOrcStatement内存溢出问题分析与解决方案

2025-07-03 20:18:53作者：鲍丁臣Ursa

问题背景

在Kyuubi项目中，当使用FetchOrcStatement功能处理大规模查询结果时，发现存在内存溢出的风险。这个问题主要出现在客户端通过FetchOrcStatement获取大量ORC格式数据时，驱动程序(Driver)会因为内存不足而崩溃。

问题根源分析

经过深入调查，发现问题出在RecordReaderIterator的初始化机制上。具体表现为：

当前实现会在创建OrcFileIterator时一次性初始化所有的RecordReaderIterator实例
每个RecordReaderIterator内部包含一个OrcMapreduceRecordReader，该读取器在初始化时会预取部分行数据
当查询结果被分成大量ORC文件时(这在AQE(自适应查询执行)或其他配置下很常见)，会同时创建大量RecordReaderIterator实例
所有这些实例的预取数据会同时驻留在内存中，导致驱动程序内存耗尽

技术细节

OrcMapreduceRecordReader的设计初衷是为了提高Hadoop MapReduce作业中ORC文件的读取效率，它会在初始化时预取数据以减少后续读取延迟。然而，在Kyuubi的这种使用场景下，这种设计反而成为了内存瓶颈。

在堆转储分析中可以清楚地看到，大量OrcMapreduceRecordReader实例及其预取数据占据了绝大部分堆内存空间。

解决方案

针对这一问题，我们提出了以下改进方案：

延迟初始化策略：不再一次性初始化所有RecordReaderIterator，而是改为按需初始化。具体实现上：

仅在需要读取特定ORC文件时才创建对应的RecordReaderIterator
确保同一时间只有一个RecordReaderIterator处于活跃状态
读取完成后及时释放资源

这种策略可以确保驱动程序内存中最多只保留一个文件读取器的预取数据，从根本上解决了内存溢出的风险。

实现效果

该解决方案实施后：

驱动程序内存使用量大幅降低，不再因读取大规模结果集而崩溃
保持了原有的功能完整性和读取效率
对用户完全透明，无需任何配置变更
特别适合处理超大规模数据集查询结果的场景

总结

Kyuubi项目中FetchOrcStatement的内存优化是一个典型的大数据处理场景下的性能调优案例。通过分析底层组件的行为特征，我们找到了内存消耗的关键点，并采用延迟初始化的设计模式有效解决了问题。这种解决方案不仅适用于当前场景，也为类似的大规模数据读取场景提供了有价值的参考。

kyuubi

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/ky/kyuubi

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

454

5.07 K

Kyuubi项目中FetchOrcStatement内存溢出问题分析与解决方案

问题背景

问题根源分析

技术细节

解决方案

实现效果

总结

热门内容推荐

最新内容推荐

项目优选

Kyuubi项目中FetchOrcStatement内存溢出问题分析与解决方案

问题背景

问题根源分析

技术细节

解决方案

实现效果

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选