首页
/ Harvester集群升级故障分析与恢复实战

Harvester集群升级故障分析与恢复实战

2025-06-14 05:34:06作者:裴麒琰

前言

在生产环境中进行Kubernetes集群升级时,经常会遇到各种意外情况。本文将以Harvester v1.3.1升级至v1.3.2过程中遇到的典型故障为例,深入分析问题原因并提供完整的恢复方案。通过这个真实案例,我们将了解如何诊断集群升级故障,以及在极端情况下如何恢复集群运行状态。

故障现象

用户报告在将三节点Harvester集群从v1.3.1升级至v1.3.2时遇到了以下问题:

  1. 首次升级尝试在节点1完成升级后,节点2和节点3的"Pre Draining"阶段卡住
  2. 尝试重新开始升级后,集群状态停留在"Images preloaded"阶段无法继续
  3. 操作系统镜像版本显示不一致,部分节点仍停留在v1.3.1而RKE2版本已升级至v1.28.12

问题诊断

通过对支持包的分析,我们发现以下几个关键问题点:

  1. etcd集群健康状态异常:日志显示多个节点在进行etcd数据库碎片整理(defragmenting),这表明etcd可能已经失去法定人数(quorum)

  2. 节点通信故障:CAPI控制器管理器日志中频繁出现TLS握手错误,表明控制平面组件之间的通信存在问题

  3. 节点状态不一致:部分节点成功升级了RKE2版本(v1.28.12)但Harvester OS仍停留在v1.3.1,导致版本不匹配

  4. 升级流程中断:用户在升级进入节点排水阶段后尝试重新开始升级,这违反了升级流程的最佳实践

恢复方案

第一阶段:评估集群状态

  1. 确认剩余健康节点的状态
  2. 检查etcd集群健康状态
  3. 验证Kubernetes API服务器可用性

第二阶段:执行集群重置

对于仅剩一个控制平面节点的场景,我们采用RKE2集群重置方案:

  1. 备份关键数据

    • 使用RKE2内置快照功能备份etcd数据
    • 手动备份Harvester虚拟机定义和存储配置
  2. 执行集群重置

    sudo rke2 server \
      --cluster-reset \
      --cluster-reset-restore-path=<快照路径>
    
  3. 证书轮换

    sudo rm -rf /var/lib/rancher/rke2/server/tls/*
    sudo systemctl restart rke2-server
    

第三阶段:节点重新加入

  1. 准备新节点

    • 使用Harvester完整ISO进行全新安装
    • 确保使用新的主机名避免冲突
    • 配置正确的管理网络连接
  2. 加入集群

    sudo harvester join https://<健康节点管理IP> \
      --token <集群令牌> \
      --server https://<健康节点管理IP>:6443
    
  3. 验证集群状态

    • 检查所有节点Ready状态
    • 验证核心组件运行状态
    • 确认存储系统(Longhorn)健康状态

第四阶段:解决Bundle部署问题

在恢复过程中,可能会遇到"mcc-harvester" Bundle部署卡住的情况。这是由于部分资源同步状态不一致导致的,可以通过以下命令强制重新同步:

kubectl -n fleet-local patch bundle mcc-harvester \
  --type=merge \
  -p '{"spec":{"forceSyncGeneration":1}}'

经验总结与最佳实践

  1. 升级前检查

    • 务必运行升级预检查脚本
    • 确保所有节点状态健康
    • 备份关键数据和配置
  2. 升级过程注意事项

    • 避免在节点排水阶段中断升级
    • 监控每个节点的升级进度
    • 准备好回滚方案
  3. 集群维护建议

    • 定期检查etcd健康状况
    • 监控证书过期时间
    • 保持文档记录集群配置变更
  4. 故障处理原则

    • 优先保护数据完整性
    • 逐步验证恢复步骤
    • 在测试环境验证关键操作

后续升级验证

在成功恢复集群后,用户可以继续完成后续升级:

  1. 从v1.3.2升级至v1.4.0
  2. 从v1.4.0升级至v1.4.1

经过验证,后续升级过程顺利完成,且v1.4.1版本在性能上有显著提升。

结论

Harvester集群升级故障的恢复需要系统性的方法和谨慎的操作。通过本文介绍的诊断方法和恢复步骤,管理员可以有效地处理类似的升级故障场景。关键是要理解集群各组件的交互关系,并在操作前做好充分准备。记住,在生产环境中,预防胜于治疗,规范的升级流程和充分的准备工作可以避免大多数升级问题。

登录后查看全文
热门项目推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
note-gennote-gen
一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
83
4
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
kernelkernel
deepin linux kernel
C
22
5