Apache Kyuubi项目中Spark Driver因Ranger Solr审计插件无法退出的问题分析

2025-07-03 06:51:00作者：何将鹤

apache/kyuubi - 该项目是一个基于 Apache Spark 的 SQL 查询引擎，提供了一个交互式的命令行界面和 RESTful API，以便于用户快速查询和分析大规模数据集。

项目地址：https://gitcode.com/gh_mirrors/kyuu/kyuubi

问题背景

在使用Apache Kyuubi 1.8.0与Spark 3.3.1组合时，当通过spark-submit提交SparkSQL作业时发现一个异常现象：作业执行成功后，Spark Driver进程却无法正常退出。通过日志分析发现，这是由于Ranger Solr审计插件中的PolicyRefresher线程持续运行导致的。

问题本质

深入分析后发现，这实际上是一个典型的非守护线程(non-daemon thread)阻塞JVM退出的问题。在Java中，JVM会等待所有非守护线程结束后才会退出。而在Spark的YARN client模式下，当SparkContext停止后，某些第三方组件创建的非守护线程如果没有正确关闭，就会导致Driver进程无法退出。

技术分析

通过线程堆栈分析，可以确认问题根源在于Ranger Solr审计插件中的几个关键线程：

SolrZkClient线程：这是由Solr客户端创建的连接管理线程，默认设置为非守护线程
PolicyRefresher线程：Ranger用于定期刷新策略的线程
审计队列线程：负责处理审计日志的发送

其中最关键的是SolrZkClient线程，它在创建时没有设置为守护线程，导致即使SparkContext已经停止，这些线程仍然保持运行状态，阻止了JVM的正常退出。

解决方案

经过验证，有以下几种可行的解决方案：

临时解决方案：禁用Solr审计功能，通过设置xasecure.audit.destination.solr为false来避免创建相关线程
根本解决方案：修改SolrZkClient的线程创建逻辑，将其设置为守护线程。这需要修改Solr的源代码，确保在创建客户端线程时显式设置为守护线程
架构建议：对于所有在Spark Driver中运行的第三方组件，都应确保其创建的线程是守护线程，以避免类似问题

最佳实践

对于使用Apache Kyuubi与Spark集成的用户，建议：

在YARN cluster模式下运行作业，该模式下不会出现此类问题
定期检查第三方组件的线程管理策略
在开发自定义插件或组件时，始终使用守护线程
对于必须使用非守护线程的场景，确保提供明确的关闭机制

总结

这个问题揭示了在复杂的大数据生态系统中，组件间集成时线程管理的重要性。通过深入分析线程行为，我们不仅找到了问题的根源，还提出了多种解决方案。这也提醒开发者，在开发面向Spark等框架的插件时，必须特别注意线程的生命周期管理，以确保系统的稳定性和可靠性。

apache/kyuubi - 该项目是一个基于 Apache Spark 的 SQL 查询引擎，提供了一个交互式的命令行界面和 RESTful API，以便于用户快速查询和分析大规模数据集。

项目地址：https://gitcode.com/gh_mirrors/kyuu/kyuubi

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。