Terraform-Hcloud-Kube-Hetzner项目中Helm Release自动安装问题解析

2025-06-27 11:02:51作者：廉彬冶Miranda

问题现象

在使用Terraform-Hcloud-Kube-Hetzner项目部署Kubernetes集群时，用户遇到了一个特殊现象：即使已经在kube.tf配置文件中明确禁用了某些Helm Release（如Longhorn、Nginx、Traefik和Cilium），这些组件仍会不断被自动重新安装。特别是Cilium组件，每次安装后都会给节点添加污点，导致无法调度任何工作负载，严重影响集群稳定性。

问题根源

这种现象的根本原因在于Kustomize与Terraform在资源管理方式上的本质差异：

状态管理机制不同：Terraform通过状态文件跟踪资源，能够识别配置变更并相应调整实际资源；而Kustomize没有内置的状态管理机制。
删除行为差异：当从kustomization.yaml中移除某项配置时，Kustomize不会自动删除集群中已部署的对应资源，需要手动清理。
持续同步机制：项目中的某些组件可能配置了自动修复或定期同步的逻辑，导致被删除的资源又被重新创建。

解决方案

针对这个问题，可以采取以下解决措施：

即时解决方案

手动清理残留资源：

kubectl delete -n kube-system helmchart traefik
kubectl delete -n kube-system helmchart longhorn
kubectl delete -n kube-system helmchart cilium

验证资源完全删除：

kubectl get helmcharts -A
kubectl get pods -A | grep -E 'traefik|longhorn|cilium'

长期解决方案

使用Terraform状态管理：
- 通过terraform state rm命令从状态中移除相关资源
- 执行terraform apply确保配置与状态一致
配置资源清理策略：
- 在HelmChart资源中添加注解防止自动修复
- 设置适当的资源清理策略
部署前验证：
- 在修改配置后，先使用terraform plan验证变更
- 确保所有不需要的资源都已被标记为待删除