Zalando Postgres-Operator 集群删除时资源残留问题分析

2025-06-12 12:41:07作者：卓炯娓

Postgres-Operator 是 Zalando 开源的用于在 Kubernetes 上管理 PostgreSQL 集群的 Operator。近期在使用 v1.12.2 版本时发现了一个重要问题：当删除 PostgreSQL 集群时，部分 Kubernetes 资源未能被正确清理，导致资源残留。

问题现象

在删除 Postgres 集群时，操作日志显示以下资源未被正确清理：

example-cluster-config Service 和 Endpoint
Postgres Pods（这些 Pod 失去了关联的 StatefulSet）

从日志中可以观察到，Operator 在处理删除操作时出现了明显的命名空间解析问题，多次出现类似警告：

an empty namespace may not be set when a resource name is provided

问题根源分析

通过深入分析日志和代码，可以确定问题主要出在以下几个方面：

命名空间处理不一致：Operator 在处理不同资源时，命名空间的传递出现了不一致的情况，导致部分删除操作无法定位到正确的命名空间。
资源清理顺序问题：StatefulSet 被删除后，相关的 Pods 应该被自动清理，但由于某些原因，这部分清理逻辑未能正确执行。
错误处理不完善：当遇到资源删除失败时，Operator 只是记录警告日志而没有采取进一步的补救措施。

技术影响

这种资源残留问题会导致多个运维隐患：

资源泄漏：未被清理的资源会持续占用集群资源，可能导致资源配额耗尽。
命名空间污染：残留的配置可能影响后续在相同命名空间中创建同名集群。
状态不一致：Kubernetes 中实际存在的资源与 Operator 管理的状态不一致，可能导致后续操作出现意外行为。

解决方案

Zalando 团队已经注意到这个问题，并在 issue #2713 中着手修复。从技术角度看，修复方案可能包括：

统一命名空间处理：确保所有资源操作都使用一致的命名空间传递机制。
增强删除逻辑：
- 实现更完善的资源清理顺序
- 增加删除操作的健壮性检查
- 添加重试机制处理暂时性失败
状态验证：在删除操作完成后，增加对集群状态的验证步骤，确保所有相关资源都被正确清理。

临时解决方案

对于受影响的用户，可以采取以下临时措施：

手动清理残留资源：

kubectl delete svc/example-cluster-config -n <namespace>
kubectl delete endpoints/example-cluster-config -n <namespace>
kubectl delete pods -l application=spilo -n <namespace>