Kyuubi项目中的Spark应用缓存清理失败问题分析与解决方案

2025-07-03 01:10:37作者：曹令琨Iris

项目地址：https://gitcode.com/gh_mirrors/ky/kyuubi

问题背景

在Kyuubi项目（一个基于Apache Spark的SQL服务网关）的实际部署中，当使用Zookeeper作为服务发现机制并在Kubernetes环境中运行时，用户报告了一个关键问题：Spark应用终止后，Kyuubi无法正确清理已终止应用的缓存，同时客户端连接也出现套接字错误。

问题现象

从日志分析中可以看到两个主要症状：

缓存清理失败：Kyuubi服务器日志中出现了"Failed to evict clean up terminated app cache"的错误信息，伴随一个NullPointerException异常。这个异常发生在KubernetesApplicationOperation组件的清理线程中。
客户端连接问题：客户端（如DBeaver）报告"Socket is closed by peer"错误，导致无法建立连接。

技术分析

深入分析日志和代码后，我们发现问题的根源在于KubernetesApplicationOperation组件中的清理触发器（cleanupTerminatedAppInfoTrigger）在特定情况下可能为null。根据代码逻辑，这种情况通常发生在KubernetesApplicationOperation的close方法被调用之后。

具体来说，当Spark应用终止时，Kyuubi会尝试清理相关的应用缓存信息。然而，由于清理触发器意外变为null，导致清理过程失败，进而可能影响后续的客户端连接。

解决方案

这个问题实际上已经被项目团队识别并修复。修复的核心思路是：

空指针防护：在清理线程执行前增加对清理触发器的非空检查，防止空指针异常。
资源生命周期管理：优化KubernetesApplicationOperation组件的关闭流程，确保清理触发器在正确的时间点被初始化和释放。

配置建议

对于使用Kyuubi的用户，以下配置参数值得特别关注：

kyuubi.kubernetes.application.state.container=spark-kubernetes-driver
kyuubi.kubernetes.application.state.source=POD
kyuubi.kubernetes.spark.cleanupTerminatedDriverPod.checkInterval=PT1M
kyuubi.kubernetes.spark.cleanupTerminatedDriverPod.kind=COMPLETED

这些参数控制着Kubernetes环境下Spark驱动Pod的状态监控和清理行为。合理的配置可以优化资源回收和系统稳定性。