Apache Kyuubi中K8s应用Pod终止状态清理机制解析

2025-07-03 20:10:07作者：昌雅子Ethen

在Apache Kyuubi与Kubernetes集成的使用场景中，我们发现了一个值得关注的技术问题：当Kyuubi服务重启时，那些已经终止(terminated)的应用Pod可能不会被正确清理。这种现象可能导致Kubernetes集群中积累大量已终止但未被删除的Pod资源，进而影响集群的资源管理和调度效率。

问题本质分析

Kyuubi作为分布式SQL查询引擎，在Kubernetes环境中运行时，会为每个查询会话创建对应的应用Pod。正常情况下，当会话结束时，相关的Pod应该被自动清理。然而，当Kyuubi服务发生意外重启时，服务重启前的会话状态信息可能丢失，导致系统无法正确识别和处理那些已经终止但尚未清理的Pod。

这种现象本质上是一个状态管理问题，涉及以下几个方面：

会话状态持久化：Kyuubi服务需要将会话状态持久化存储，以便在服务重启后能够恢复
Pod生命周期管理：需要建立可靠的机制来跟踪和管理由Kyuubi创建的Pod的生命周期
异常处理：需要考虑服务崩溃、网络中断等各种异常情况下的资源清理

技术解决方案

针对这个问题，社区提出了通过引入Kubernetes的Finalizer机制来确保Pod资源的可靠清理。Finalizer是Kubernetes提供的一种资源清理保障机制，它允许控制器在删除资源前执行必要的清理操作。

具体实现方案包括以下关键点：

Finalizer注册：在创建Pod时为资源添加特定的Finalizer标记
清理逻辑：在Kyuubi服务启动时，主动扫描并清理带有特定标签的已终止Pod
状态恢复：服务重启后能够重新建立与现有Pod的关联关系

实现细节

在代码层面，这个修复主要涉及Kubernetes操作相关的组件修改：

Pod创建时添加Finalizer：

// 示例代码片段
pod.getMetadata().setFinalizers(
    Collections.singletonList("kyuubi.apache.org/pod-cleanup"));

服务启动时执行清理：

// 扫描命名空间内所有带有kyuubi标签的Pod
List<Pod> pods = k8sClient.pods()
    .withLabel("app.kubernetes.io/managed-by", "kyuubi")
    .list().getItems();

// 过滤出已终止的Pod并删除
pods.stream()
    .filter(p -> p.getStatus().getPhase().equals("Terminated"))
    .forEach(p -> k8sClient.pods().delete(p));

会话结束时确保Finalizer移除：

// 在会话正常结束时移除Finalizer
k8sClient.pods()
    .withName(podName)
    .edit(p -> {
        p.getMetadata().getFinalizers().remove("kyuubi.apache.org/pod-cleanup");
        return p;
    });