kube-hetzner项目中Traefik自动更新导致的CRD缺失问题分析

2025-06-27 01:23:23作者：邬祺芯Juliet

在kube-hetzner项目部署的Kubernetes集群中，Traefik组件在自动重启后出现功能异常，主要原因是缺少必要的CRD（Custom Resource Definition）资源。本文将深入分析该问题的成因、影响范围及解决方案。

问题现象

集群中的Traefik组件在自动重启后，日志中会出现如下错误信息：

W0625 20:52:09.806139       1 reflector.go:539] k8s.io/client-go@v0.29.2/tools/cache/reflector.go:229: failed to list *v1alpha1.ServersTransportTCP: the server could not find the requested resource (get serverstransporttcps.traefik.io)
E0625 20:52:09.806238       1 reflector.go:147] k8s.io/client-go@v0.29.2/tools/cache/reflector.go:229: Failed to watch *v1alpha1.ServersTransportTCP: failed to list *v1alpha1.ServersTransportTCP: the server could not find the requested resource (get serverstransporttcps.traefik.io)

这些错误表明Traefik尝试访问serverstransporttcps.traefik.io这个CRD资源，但该资源在集群中不存在。

问题根源

经过分析，该问题主要由以下几个因素共同导致：

Traefik版本自动更新：kube-hetzner项目中Traefik的Helm Chart默认配置会拉取最新版本的镜像，当未显式指定traefik_image_tag时，容器重启可能会使用新版本镜像。
CRD版本不兼容：新版本的Traefik引入了新的CRD资源定义（如ServersTransportTCP），但集群中缺少这些新增的CRD定义。
RBAC权限变更：新版本可能还引入了新的RBAC权限要求，原有的ClusterRole配置可能不再满足新版本的需求。

解决方案

临时解决方案

对于已经出现问题的集群，可以执行以下命令修复：

# 安装Traefik资源定义
kubectl apply -f https://raw.githubusercontent.com/traefik/traefik/v3.0/docs/content/reference/dynamic-configuration/kubernetes-crd-definition-v1.yml

# 安装Traefik RBAC权限
kubectl apply -f https://raw.githubusercontent.com/traefik/traefik/v3.0/docs/content/reference/dynamic-configuration/kubernetes-crd-rbac.yml

此外，还需要将所有Traefik相关的Kubernetes资源定义中的apiVersion字段更新为traefik.io/v1alpha1。

长期解决方案

固定Traefik版本：在kube-hetzner项目的kube.tf配置文件中，显式设置traefik_image_tag参数，固定使用特定版本的Traefik镜像，避免自动升级。
预置CRD资源：在集群初始化阶段，预先安装所有必要的CRD资源，即使当前版本不需要，为未来升级预留空间。
版本兼容性检查：在Traefik部署前，增加版本兼容性检查逻辑，确保CRD、RBAC等资源与目标版本匹配。