Harvester集群升级故障分析与恢复实战

2025-06-14 06:55:12作者：裴麒琰

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

前言

在生产环境中进行Kubernetes集群升级时，经常会遇到各种意外情况。本文将以Harvester v1.3.1升级至v1.3.2过程中遇到的典型故障为例，深入分析问题原因并提供完整的恢复方案。通过这个真实案例，我们将了解如何诊断集群升级故障，以及在极端情况下如何恢复集群运行状态。

故障现象

用户报告在将三节点Harvester集群从v1.3.1升级至v1.3.2时遇到了以下问题：

首次升级尝试在节点1完成升级后，节点2和节点3的"Pre Draining"阶段卡住
尝试重新开始升级后，集群状态停留在"Images preloaded"阶段无法继续
操作系统镜像版本显示不一致，部分节点仍停留在v1.3.1而RKE2版本已升级至v1.28.12

问题诊断

通过对支持包的分析，我们发现以下几个关键问题点：

etcd集群健康状态异常：日志显示多个节点在进行etcd数据库碎片整理(defragmenting)，这表明etcd可能已经失去法定人数(quorum)
节点通信故障：CAPI控制器管理器日志中频繁出现TLS握手错误，表明控制平面组件之间的通信存在问题
节点状态不一致：部分节点成功升级了RKE2版本(v1.28.12)但Harvester OS仍停留在v1.3.1，导致版本不匹配
升级流程中断：用户在升级进入节点排水阶段后尝试重新开始升级，这违反了升级流程的最佳实践

恢复方案

第一阶段：评估集群状态

确认剩余健康节点的状态
检查etcd集群健康状态
验证Kubernetes API服务器可用性

第二阶段：执行集群重置

对于仅剩一个控制平面节点的场景，我们采用RKE2集群重置方案：

备份关键数据：
- 使用RKE2内置快照功能备份etcd数据
- 手动备份Harvester虚拟机定义和存储配置

执行集群重置：

sudo rke2 server \
  --cluster-reset \
  --cluster-reset-restore-path=<快照路径>

证书轮换：

sudo rm -rf /var/lib/rancher/rke2/server/tls/*
sudo systemctl restart rke2-server

第三阶段：节点重新加入

准备新节点：
- 使用Harvester完整ISO进行全新安装
- 确保使用新的主机名避免冲突
- 配置正确的管理网络连接

加入集群：

sudo harvester join https://<健康节点管理IP> \
  --token <集群令牌> \
  --server https://<健康节点管理IP>:6443

验证集群状态：
- 检查所有节点Ready状态
- 验证核心组件运行状态
- 确认存储系统(Longhorn)健康状态

第四阶段：解决Bundle部署问题

在恢复过程中，可能会遇到"mcc-harvester" Bundle部署卡住的情况。这是由于部分资源同步状态不一致导致的，可以通过以下命令强制重新同步：

kubectl -n fleet-local patch bundle mcc-harvester \
  --type=merge \
  -p '{"spec":{"forceSyncGeneration":1}}'

经验总结与最佳实践

升级前检查：
- 务必运行升级预检查脚本
- 确保所有节点状态健康
- 备份关键数据和配置
升级过程注意事项：
- 避免在节点排水阶段中断升级
- 监控每个节点的升级进度
- 准备好回滚方案
集群维护建议：
- 定期检查etcd健康状况
- 监控证书过期时间
- 保持文档记录集群配置变更
故障处理原则：
- 优先保护数据完整性
- 逐步验证恢复步骤
- 在测试环境验证关键操作

后续升级验证

在成功恢复集群后，用户可以继续完成后续升级：

从v1.3.2升级至v1.4.0
从v1.4.0升级至v1.4.1

经过验证，后续升级过程顺利完成，且v1.4.1版本在性能上有显著提升。

结论

Harvester集群升级故障的恢复需要系统性的方法和谨慎的操作。通过本文介绍的诊断方法和恢复步骤，管理员可以有效地处理类似的升级故障场景。关键是要理解集群各组件的交互关系，并在操作前做好充分准备。记住，在生产环境中，预防胜于治疗，规范的升级流程和充分的准备工作可以避免大多数升级问题。

harvester

项目地址：https://gitcode.com/gh_mirrors/har/harvester

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781

Harvester集群升级故障分析与恢复实战

前言

故障现象

问题诊断

恢复方案

第一阶段：评估集群状态

第二阶段：执行集群重置

第三阶段：节点重新加入

第四阶段：解决Bundle部署问题

经验总结与最佳实践

后续升级验证

结论

热门内容推荐

最新内容推荐

项目优选

Harvester集群升级故障分析与恢复实战

前言

故障现象

问题诊断

恢复方案

第一阶段：评估集群状态

第二阶段：执行集群重置

第三阶段：节点重新加入

第四阶段：解决Bundle部署问题

经验总结与最佳实践

后续升级验证

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选