Harvester集群节点异常Cordoned状态问题分析与解决

2025-06-13 23:43:38作者：凤尚柏Louis

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

问题现象

在Harvester 1.5.0版本的4节点集群环境中，当管理员尝试移除并重新加入dmz02节点时，发现该节点虽然能短暂进入Ready状态，但会在大约5分钟后自动转为Cordoned状态。这种异常行为导致：

Ceph RBD Pods被自动移除
运行在该节点上的虚拟机被迁移到其他节点
需要人工干预才能短暂恢复Active状态

根本原因分析

通过深入分析集群状态，发现问题的核心在于机器(Machine)资源与节点(Node)的映射关系异常。具体表现为：

机器资源冗余：正常情况下，每个节点应该对应一个Machine资源，但该集群中存在多个Machine资源同时映射到dmz02节点
删除不彻底：之前强制删除节点时(kubectl delete node)，未等待集群完成Machine资源的清理流程
控制平面状态异常：Cluster资源显示有机器处于"Deleting"状态超过15分钟，阻塞了正常的集群操作

技术细节

异常状态机分析

Machine资源状态：
- custom-a3b368e81759：处于Deleting状态超过24小时
- custom-8019c31ceff0/custom-91357ad65ba6：处于Provisioning状态
- 多个Machine同时映射到dmz02节点
集群协调机制：
- Harvester基于Cluster API实现节点生命周期管理
- 残留的Machine资源导致控制器持续尝试协调节点状态
- 5分钟间隔是默认的协调周期

关键错误信息

在Cluster资源状态中观察到以下关键报错：

* Machine custom-a3b368e81759:
  * Deleting: Machine deletion in progress since more than 15m, stage: WaitingForPreTerminateHook

解决方案

完整修复步骤

清理残留资源：

kubectl -n fleet-local get machines.cluster.x-k8s.io
kubectl -n fleet-local delete machines.cluster.x-k8s.io <异常Machine名称>

彻底移除问题节点：
- 通过Harvester UI或kubectl删除节点
- 确认节点和关联Machine资源都已完全清除
重新加入节点：
- 确保集群中只有3个正常节点(1,3,4)和对应的3个Machine
- 使用标准流程重新添加dmz02节点

操作建议

避免强制删除：始终通过Harvester UI或正确流程移除节点

状态验证：在操作前后检查以下资源状态：

kubectl get nodes
kubectl -n fleet-local get machines.cluster.x-k8s.io
kubectl get cluster -A

等待操作完成：节点删除可能需要较长时间，需耐心等待所有资源清理完成

预防措施

监控Machine资源：定期检查Machine与Node的对应关系
维护窗口期：在集群负载较低时执行节点维护操作
日志收集：操作前生成支持包，便于问题诊断
版本管理：保持Harvester版本更新，修复已知问题

总结

Harvester集群节点状态异常通常源于底层Machine资源的状态不一致。通过系统性地清理残留资源、确保资源映射关系正确，可以有效解决这类问题。关键是要理解Harvester基于Cluster API的架构原理，遵循正确的节点维护流程，避免强制操作导致状态不一致。

harvester

项目地址：https://gitcode.com/gh_mirrors/har/harvester

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

114

140

Harvester集群节点异常Cordoned状态问题分析与解决

问题现象

根本原因分析

技术细节

异常状态机分析

关键错误信息

解决方案

完整修复步骤

操作建议

预防措施

总结

热门内容推荐

最新内容推荐

项目优选

Harvester集群节点异常Cordoned状态问题分析与解决

问题现象

根本原因分析

技术细节

异常状态机分析

关键错误信息

解决方案

完整修复步骤

操作建议

预防措施

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选