Kubernetes Helm在集群升级后资源删除异常问题深度解析

2025-05-06 22:36:54作者：董斯意

问题现象

当用户将Azure Kubernetes Service（AKS）集群从1.29版本升级到1.30.7后，发现使用Helm删除应用包（package）时，关联的Pod和ReplicaSet资源未被正常清理，变成了"孤儿资源"。这与早期版本（1.21升级至1.22时）报告过的类似问题具有相似特征。

技术背景

Helm作为Kubernetes的包管理工具，其删除操作实际上是通过Kubernetes API Server完成的资源删除流程。正常情况下，Helm会按照资源依赖关系顺序删除所有相关资源，包括：

工作负载（Deployment/StatefulSet等）
副本控制器（ReplicaSet）
Pod实例
附属资源（Service/ConfigMap等）

问题根因分析

根据最终排查结果，该问题的根本原因是：

集群中存在功能异常的CRD（Custom Resource Definition）Webhook
这个Webhook拦截了Kubernetes API Server的资源删除请求
导致控制平面无法完成资源删除的协调过程

这种故障通常表现为：

Helm客户端显示删除操作"成功完成"（返回0退出码）
但实际资源仍存在于集群中
控制平面日志中会出现Webhook调用超时或拒绝的报错

解决方案

遇到此类问题时，建议按照以下步骤排查：

检查控制平面日志

kubectl logs -n kube-system <api-server-pod>

重点关注与admission webhook相关的错误信息

验证Webhook可用性

kubectl get validatingwebhookconfigurations,mutatingwebhookconfigurations
kubectl describe validatingwebhookconfiguration <name>

临时禁用问题Webhook（生产环境谨慎操作）

kubectl patch validatingwebhookconfiguration <name> --type='json' -p='[{"op":"replace","path":"/webhooks/0/failurePolicy","value":"Ignore"}]'

清理残留资源后恢复Webhook

helm delete --no-hooks <release>
kubectl patch validatingwebhookconfiguration <name> --type='json' -p='[{"op":"replace","path":"/webhooks/0/failurePolicy","value":"Fail"}]'

最佳实践建议

在集群升级前，使用Helm的--dry-run参数测试删除操作
升级后立即验证核心功能：

helm install test-release bitnami/nginx --dry-run
helm delete test-release --dry-run

维护Webhook的健康检查端点
为Webhook配置合理的超时时间（建议不超过5秒）

总结

该案例揭示了Kubernetes控制平面组件间协调机制的重要性。作为运维人员，在集群升级前后需要特别关注：

Admission Controller的兼容性
Webhook的性能指标
资源删除操作的完整生命周期验证

通过系统化的升级检查和及时的日志分析，可以快速定位和解决这类隐性问题。

helm

The Kubernetes Package Manager

项目地址：https://gitcode.com/gh_mirrors/he/helm

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

162

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解