RKE集群节点异常删除后的恢复实践

2025-06-25 16:52:54作者：裘旻烁

Rancher Kubernetes Engine (RKE), an extremely simple, lightning fast Kubernetes distribution that runs entirely within containers.

项目地址：https://gitcode.com/gh_mirrors/rk/rke

问题背景

在使用Rancher Kubernetes Engine(RKE)管理Kubernetes集群时，一个常见的运维场景是需要对集群节点进行维护或替换。然而，当管理员直接使用kubectl delete node命令删除节点而未遵循Rancher推荐的操作流程时，可能会导致集群状态异常。

问题现象

在本次案例中，管理员意外通过kubectl命令删除了一个控制平面节点，随后重新创建了虚拟机节点。这一操作导致Rancher系统在尝试清理已删除节点时出现故障，具体表现为：

集群处于降级状态
Rancher持续尝试清理已删除节点但失败
新节点无法正常注册加入集群
集群扩容操作受阻

从日志中可以观察到，Rancher尝试建立与已删除节点的SSH隧道失败，并报错"nodes.management.cattle.io not found"，表明系统内部状态与实际情况不一致。

问题分析

这种问题的根本原因在于Rancher内部状态管理与实际Kubernetes集群状态不同步。当直接使用kubectl删除节点时：

Kubernetes API Server中的节点资源被删除
但Rancher管理系统中的相关状态未同步清理
Rancher仍尝试管理已不存在的节点
导致后续操作陷入异常状态

解决方案

经过多次尝试，最终通过以下步骤成功恢复集群健康状态：

通过Rancher UI删除等待注册的节点：首先在Rancher界面中删除处于"Waiting to register with Kubernetes"状态的节点记录。
手动清理节点：登录到物理/虚拟节点执行以下清理操作：
- 停止所有Kubernetes相关服务
- 清理/var/lib/kubelet等Kubernetes工作目录
- 删除Docker容器和镜像（如使用Docker作为容器运行时）
- 重启节点确保环境干净
重新执行注册命令：在清理完成后，再次执行节点注册命令。
等待集群恢复：整个过程可能需要较长时间（约60分钟），期间Rancher会逐步重建必要的集群状态。

经验总结

遵循官方操作流程：对于RKE集群节点的维护操作，应优先使用Rancher提供的管理界面或工具，避免直接操作Kubernetes API。
状态一致性至关重要：Kubernetes集群管理工具通常维护自己的状态机，直接绕过工具操作可能导致状态不一致。
耐心等待自愈：分布式系统具有复杂的协调机制，某些恢复操作可能需要较长时间才能完成。
预防胜于治疗：建立规范的节点维护流程，包括备份、预检查等步骤，可以避免此类问题发生。

最佳实践建议

对于生产环境中的RKE集群节点维护，建议采用以下流程：

通过Rancher UI将节点标记为不可调度(drain)
等待工作负载迁移完成
使用Rancher提供的节点删除功能
确认节点完全删除后再重建
如需手动操作，确保同时清理Rancher管理系统中的相关状态

通过遵循这些实践，可以最大限度地减少集群状态异常的风险，确保业务连续性。

Rancher Kubernetes Engine (RKE), an extremely simple, lightning fast Kubernetes distribution that runs entirely within containers.

项目地址：https://gitcode.com/gh_mirrors/rk/rke

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统