K3s集群中etcd-only节点与API服务器重连问题的分析与解决

2025-05-06 05:04:06作者：苗圣禹Peter

问题背景

在K3s集群环境中，当配置了专门的etcd-only节点(仅运行etcd服务的节点)时，存在一个关键的网络连接问题。具体表现为：如果工作节点是通过etcd-only节点加入集群的，当集群经历网络中断或节点重启后，这些工作节点无法自动重新连接到API服务器。

K3s作为轻量级Kubernetes发行版，其架构设计允许将etcd、API服务器等组件分离部署。在标准配置中：

问题的核心在于节点间的连接机制。当工作节点通过etcd-only节点加入集群时，其kubelet组件会记录该etcd-only节点作为API服务器端点。然而，etcd-only节点本身并不运行API服务器服务，这导致在网络中断后，工作节点尝试重新连接时无法建立有效的API连接。

该问题会导致以下严重后果：

K3s团队通过修改节点连接逻辑解决了这一问题，主要改进包括：

验证该修复需要搭建特定配置的K3s集群：

测试步骤包括：

修复后的版本(v1.28.15+k3s-2d0661e3)已确认可解决此问题，节点能够在网络恢复后自动重新连接并恢复Ready状态。

基于此问题的经验，建议K3s用户：

该修复显著提高了K3s集群在部分节点故障情况下的自愈能力，是生产环境部署的重要稳定性改进。

登录后查看全文