Kubespray集群中Worker节点重启后无法恢复就绪状态的问题分析

2025-05-13 13:46:01作者：庞眉杨Will

在Kubernetes生产环境中，使用Kubespray部署的集群可能会遇到一个典型问题：当Worker节点意外重启后，节点无法自动恢复就绪状态。本文将深入分析这一问题的根本原因，并提供有效的解决方案。

问题现象

在单控制平面节点的Kubespray集群环境中，当Worker节点发生重启时，系统会出现以下异常表现：

节点状态持续显示为NotReady
kubelet服务日志显示无法连接到API Server
nginx-proxy-node容器无法正常启动
节点上的Pod均处于NotReady状态

通过检查kubelet日志，可以发现关键的报错信息："dial tcp 127.0.0.1:6443: connect: connection refused"，这表明kubelet无法通过本地端口6443连接到API Server。

根本原因分析

这个问题实际上是一个典型的"鸡与蛋"的依赖循环：

Kubespray默认配置下，Worker节点的kubelet会尝试通过localhost:6443连接API Server
这个连接实际上应该由nginx-proxy-node容器代理转发到真正的API Server
但nginx-proxy-node容器本身又依赖于kubelet的正常工作才能启动
当节点重启后，这个依赖链断裂，导致系统无法自动恢复

进一步检查发现，Kubespray在部署时会在/etc/kubernetes目录下保留一个kubelet.conf的备份文件，这个备份文件中包含的是直接指向API Server真实IP地址的配置，而非localhost。

解决方案

针对这个问题，我们有两种解决方案：

临时解决方案

对于已经出现问题的节点，可以手动恢复：

使用备份的kubelet配置文件替换当前配置
重启kubelet服务

具体命令如下：

cp /etc/kubernetes/kubelet.conf.<备份文件> /etc/kubernetes/kubelet.conf
systemctl restart kubelet

永久解决方案

在集群部署前，修改Kubespray的配置参数：

loadbalancer_apiserver_localhost: false

这个配置变更会使Kubespray在Worker节点上生成直接指向API Server真实地址的kubelet配置，避免了通过localhost代理的依赖链，从根本上解决了节点重启后的恢复问题。

最佳实践建议

在生产环境中，建议至少部署3个控制平面节点以提高可用性
对于关键节点，实施优雅关闭流程(drain)后再重启
定期检查集群中所有节点的kubelet配置一致性
考虑实现自动化监控，当检测到节点NotReady状态时自动尝试恢复

通过理解这一问题的本质并实施恰当的解决方案，可以显著提高Kubespray部署的Kubernetes集群的稳定性和可靠性。

kubespray

Deploy a Production Ready Kubernetes Cluster

项目地址：https://gitcode.com/GitHub_Trending/ku/kubespray

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.02 K

266