首页
/ Harvester集群升级故障分析与恢复实战

Harvester集群升级故障分析与恢复实战

2025-06-14 05:34:06作者:裴麒琰

前言

在生产环境中进行Kubernetes集群升级时,经常会遇到各种意外情况。本文将以Harvester v1.3.1升级至v1.3.2过程中遇到的典型故障为例,深入分析问题原因并提供完整的恢复方案。通过这个真实案例,我们将了解如何诊断集群升级故障,以及在极端情况下如何恢复集群运行状态。

故障现象

用户报告在将三节点Harvester集群从v1.3.1升级至v1.3.2时遇到了以下问题:

  1. 首次升级尝试在节点1完成升级后,节点2和节点3的"Pre Draining"阶段卡住
  2. 尝试重新开始升级后,集群状态停留在"Images preloaded"阶段无法继续
  3. 操作系统镜像版本显示不一致,部分节点仍停留在v1.3.1而RKE2版本已升级至v1.28.12

问题诊断

通过对支持包的分析,我们发现以下几个关键问题点:

  1. etcd集群健康状态异常:日志显示多个节点在进行etcd数据库碎片整理(defragmenting),这表明etcd可能已经失去法定人数(quorum)

  2. 节点通信故障:CAPI控制器管理器日志中频繁出现TLS握手错误,表明控制平面组件之间的通信存在问题

  3. 节点状态不一致:部分节点成功升级了RKE2版本(v1.28.12)但Harvester OS仍停留在v1.3.1,导致版本不匹配

  4. 升级流程中断:用户在升级进入节点排水阶段后尝试重新开始升级,这违反了升级流程的最佳实践

恢复方案

第一阶段:评估集群状态

  1. 确认剩余健康节点的状态
  2. 检查etcd集群健康状态
  3. 验证Kubernetes API服务器可用性

第二阶段:执行集群重置

对于仅剩一个控制平面节点的场景,我们采用RKE2集群重置方案:

  1. 备份关键数据

    • 使用RKE2内置快照功能备份etcd数据
    • 手动备份Harvester虚拟机定义和存储配置
  2. 执行集群重置

    sudo rke2 server \
      --cluster-reset \
      --cluster-reset-restore-path=<快照路径>
    
  3. 证书轮换

    sudo rm -rf /var/lib/rancher/rke2/server/tls/*
    sudo systemctl restart rke2-server
    

第三阶段:节点重新加入

  1. 准备新节点

    • 使用Harvester完整ISO进行全新安装
    • 确保使用新的主机名避免冲突
    • 配置正确的管理网络连接
  2. 加入集群

    sudo harvester join https://<健康节点管理IP> \
      --token <集群令牌> \
      --server https://<健康节点管理IP>:6443
    
  3. 验证集群状态

    • 检查所有节点Ready状态
    • 验证核心组件运行状态
    • 确认存储系统(Longhorn)健康状态

第四阶段:解决Bundle部署问题

在恢复过程中,可能会遇到"mcc-harvester" Bundle部署卡住的情况。这是由于部分资源同步状态不一致导致的,可以通过以下命令强制重新同步:

kubectl -n fleet-local patch bundle mcc-harvester \
  --type=merge \
  -p '{"spec":{"forceSyncGeneration":1}}'

经验总结与最佳实践

  1. 升级前检查

    • 务必运行升级预检查脚本
    • 确保所有节点状态健康
    • 备份关键数据和配置
  2. 升级过程注意事项

    • 避免在节点排水阶段中断升级
    • 监控每个节点的升级进度
    • 准备好回滚方案
  3. 集群维护建议

    • 定期检查etcd健康状况
    • 监控证书过期时间
    • 保持文档记录集群配置变更
  4. 故障处理原则

    • 优先保护数据完整性
    • 逐步验证恢复步骤
    • 在测试环境验证关键操作

后续升级验证

在成功恢复集群后,用户可以继续完成后续升级:

  1. 从v1.3.2升级至v1.4.0
  2. 从v1.4.0升级至v1.4.1

经过验证,后续升级过程顺利完成,且v1.4.1版本在性能上有显著提升。

结论

Harvester集群升级故障的恢复需要系统性的方法和谨慎的操作。通过本文介绍的诊断方法和恢复步骤,管理员可以有效地处理类似的升级故障场景。关键是要理解集群各组件的交互关系,并在操作前做好充分准备。记住,在生产环境中,预防胜于治疗,规范的升级流程和充分的准备工作可以避免大多数升级问题。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
197
2.17 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
208
285
pytorchpytorch
Ascend Extension for PyTorch
Python
59
94
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
973
574
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
549
81
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.02 K
399
communitycommunity
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
393
27
MateChatMateChat
前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。 官网地址:https://matechat.gitcode.com
1.2 K
133