Kube-Hetzner项目部署过程中Agent节点配置卡顿问题分析

2025-06-28 08:37:58作者：昌雅子Ethen

问题现象描述

在使用Kube-Hetzner最新版本部署新集群时，用户遇到了Agent节点配置过程卡顿的问题。具体表现为在配置单个Agent节点时，部署过程停滞超过40分钟，而该节点在Hetzner控制面板中显示已成功创建。

从日志中可以看到，部署过程在安装k3s的SELinux策略模块后卡住，随后出现大量关于system-upgrade-controller部署超时的错误信息。同时，Agent节点上的k3s-agent服务日志显示无法获取CA证书，返回503服务不可用错误。

经过技术分析，这个问题可能由以下几个因素导致：

网络隧道与CNI插件兼容性问题：用户启用了网络隧道功能，但没有同时配置Cilium CNI插件。在某些网络配置下，这可能导致节点间通信异常。
系统升级控制器缺陷：日志中出现的system-upgrade-controller部署超时表明，集群的系统升级组件可能存在版本缺陷，影响了节点加入过程。
证书颁发流程阻塞：Agent节点无法从控制平面获取CA证书，表明控制平面的证书服务可能没有正确启动或存在网络连通性问题。

针对这一问题，我们建议采取以下解决方案：

CNI插件选择：
- 当启用网络隧道时，建议同时使用Cilium作为CNI插件
- 在kube.tf配置中添加：cni_plugin = "cilium"
系统组件升级：
- 确保使用最新版本的系统升级控制器
- 执行terraform init -upgrade更新所有依赖组件
部署流程优化：
- 对于新集群部署，可以先禁用网络隧道进行测试
- 分阶段验证：先确保基础集群正常运行，再逐步启用高级功能
故障排查步骤：
- 检查控制平面节点的k3s服务状态
- 验证节点间的网络连通性
- 查看证书服务的日志输出