Apache Kyuubi 中 Kubernetes 应用缓存清理失败问题分析

2025-07-05 20:27:12作者：伍霜盼Ellen

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

问题背景

在 Apache Kyuubi 1.10.1 版本中，当使用 Zookeeper 作为服务发现机制并在 Kubernetes 环境中部署时，系统在 Spark 应用终止后无法正确清理应用缓存。这一问题不仅导致资源无法及时释放，还会影响客户端连接，出现"Socket is closed by peer"的错误。

问题现象

用户报告的主要症状包括：

Spark 应用终止后，Kyuubi 服务日志中出现"Failed to evict clean up terminated app cache"错误
客户端连接失败，显示套接字已关闭
错误日志中抛出 NullPointerException

技术分析

根本原因

通过分析日志堆栈跟踪，发现问题出在 KubernetesApplicationOperation 类的初始化过程中。具体来说，当尝试清理已终止的应用缓存时，cleanupTerminatedAppInfoTrigger 变量意外变为 null。

这一现象通常发生在以下情况：

KubernetesApplicationOperation 的 close() 方法已被调用
清理线程仍在尝试访问已被置为 null 的触发器变量
资源清理流程未能正确处理生命周期管理

相关代码分析

从堆栈跟踪可以看出，错误发生在 KubernetesApplicationOperation.scala 的第154行附近。这是一个定时清理任务的执行路径，当调度器尝试执行清理操作时，由于触发器变量已被释放，导致空指针异常。

解决方案

该问题已在后续版本中得到修复，主要改进包括：

增加了对 cleanupTerminatedAppInfoTrigger 变量的空值检查
优化了资源清理的生命周期管理
改进了 Kubernetes 应用状态监控的健壮性

最佳实践建议

对于使用 Kyuubi 与 Kubernetes 集成的用户，建议：

及时升级到包含修复的版本
合理配置清理间隔时间
监控应用缓存清理状态
设置适当的会话超时参数

总结

Kyuubi 作为大数据查询引擎，与 Kubernetes 的深度集成是其重要特性之一。本次发现的缓存清理问题虽然影响范围有限，但可能对生产环境造成资源泄漏风险。通过社区成员的快速响应和修复，确保了系统在复杂环境下的稳定运行。

对于企业用户而言，保持组件版本更新和合理配置是避免类似问题的有效方法。同时，完善的监控体系也能帮助及时发现和解决潜在问题。

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统