Apache Arrow C++ 连接 HDFS 时的 StackOverflowError 问题分析

2025-05-18 08:48:30作者：钟日瑜

Apache Arrow is a multi-language toolbox for accelerated data interchange and in-memory processing

项目地址：https://gitcode.com/gh_mirrors/arrow13/arrow

问题背景

在使用 Apache Arrow C++ 库连接 HDFS 时，开发者可能会遇到一个棘手的 StackOverflowError 异常。这个问题最初出现在 Arrow 7.0.0 版本与 Hadoop 3.2.1 的组合环境中，当项目同时引入了 GKlib 库时，HDFS 连接操作会抛出异常。

问题现象

开发者最初报告的问题表现为：当使用 arrow::io::HadoopFileSystem::Connect 方法连接 HDFS 时，系统抛出 java.lang.StackOverflowError 异常。值得注意的是，这个问题仅在项目中引入 GKlib 库后出现，单独使用 Arrow 连接 HDFS 时功能正常。

深入分析

经过多次测试和版本验证，开发者发现几个关键现象：

在 Arrow 7.0.0 和 9.0.0 版本中，引入 GKlib 库会导致 HDFS 连接失败
升级到 Arrow 19.0.0 后，问题得到解决
进一步研究发现，问题的根源可能与内存分配器有关

根本原因

深入调查后，开发者确认问题的真正原因与 jemalloc 内存分配器有关。当编译 Arrow 时启用了 jemalloc 选项（-DARROW_JEMALLOC=ON），即使使用 Arrow 19.0.0 版本，也会重现相同的 StackOverflowError 错误。这表明：

jemalloc 与 GKlib 库之间存在某种不兼容性
这种不兼容性导致了 JVM 栈溢出，影响了 HDFS 连接过程

解决方案

基于以上分析，开发者提供了几种可行的解决方案：

升级 Arrow 版本：将 Arrow 升级到 19.0.0 或更高版本，这是官方推荐的做法
禁用 jemalloc：在编译 Arrow 时设置 -DARROW_JEMALLOC=OFF 选项
使用替代内存分配器：如 mimalloc，开发者确认使用 mimalloc 后问题不再出现

最佳实践建议

对于需要在项目中同时使用 Arrow C++ 和 GKlib 的开发者，建议采取以下措施：

优先考虑使用较新版本的 Arrow（19.0.0+）
如果必须使用旧版本，建议禁用 jemalloc 或更换内存分配器
在项目初期进行充分的技术栈兼容性测试
监控内存分配行为，确保不同组件间的内存管理策略不会冲突

总结

这个案例展示了开源组件间潜在的兼容性问题，特别是在涉及内存管理和 JNI 交互的复杂场景中。通过系统性的问题定位和版本验证，开发者最终找到了问题的根源和解决方案。这也提醒我们在集成多个第三方库时需要特别注意底层依赖和内存管理策略的兼容性。

Apache Arrow is a multi-language toolbox for accelerated data interchange and in-memory processing

项目地址：https://gitcode.com/gh_mirrors/arrow13/arrow

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Ascend Extension for PyTorch