Harvester集群升级故障排查与解决方案深度解析

2025-06-14 05:06:04作者：段琳惟

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

问题背景

在Harvester v1.4.2升级至v1.5.0的过程中，用户遇到了节点升级停滞的问题。具体表现为3节点集群中2个节点成功升级，但第3个节点（harvester4）长期停留在"images preloaded"状态。本文将深入分析该问题的技术细节，并提供完整的解决方案。

问题诊断过程

初始状态分析

通过检查集群状态，我们发现以下异常情况：

Kubernetes节点与机器资源不匹配：虽然集群只有3个运行中的节点，但存在5个machines.cluster.x-k8s.io资源和4个nodes.devices.harvesterhci.io资源
存在已删除节点(harvester2)的残留资源
升级控制器状态显示harvester4节点卡在"Images preloaded"阶段

关键发现

资源不一致问题：
- 集群中存在已删除节点的残余Machine资源
- 这些残留资源可能导致升级控制器状态判断错误
节点升级停滞原因：
- 节点harvester4的OS版本仍显示为v1.4.2
- 升级流程在drain阶段出现异常，post-drain钩子未正确执行
支持包分析问题：
- 多次生成的支持包缺少关键yamls目录
- 这可能是由于证书过期导致的收集工具功能异常

解决方案实施

第一步：清理残留资源

删除无效的Machine资源：

kubectl delete machines.cluster.x-k8s.io custom-1d1de6c3ae63 -n fleet-local
kubectl delete machines.cluster.x-k8s.io custom-9626842a1f91 -n fleet-local

清理已删除节点的设备资源：

kubectl delete nodes.devices.harvesterhci.io harvester2

第二步：修复drain状态

使用post-drain.sh脚本修复harvester4节点的drain状态：
```
./post-drain.sh harvester4
```
该脚本会：
- 定位节点对应的Machine资源
- 检查当前的drain状态
- 修复缺失的post-drain钩子状态

第三步：重置升级流程

强制删除卡住的升级资源：

kubectl patch upgrade.harvesterhci.io hvst-upgrade-zjft7 -n harvester-system \
  --type merge -p '{"metadata":{"finalizers":[]}}'
kubectl delete upgrade.harvesterhci.io hvst-upgrade-zjft7 -n harvester-system