Harvester项目升级问题分析与解决方案：从1.4.0到1.4.1版本升级失败的处理

2025-06-14 05:24:11作者：侯霆垣

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

问题背景

在虚拟化管理平台Harvester的使用过程中，用户尝试将系统从1.4.0版本升级到1.4.1版本时遇到了阻碍。升级前虽然集群健康检查显示所有Pod均正常运行，但预检查脚本发现多个关键组件处于"NotReady"状态，导致升级流程无法继续。

问题现象分析

升级前检查发现的主要异常包括：

多个核心组件部署状态异常，包括：
- harvester-node-disk-manager-webhook
- harvester-whereabouts
- virt-operator
- harvester-node-manager-webhook
- harvester-webhook
- harvester-network-controller-manager
- harvester-load-balancer
- harvester-network-webhook
- harvester-load-balancer-webhook
这些组件普遍显示"Deployment does not have minimum availability"或"Available: 0/1"的错误信息，表明它们虽然部署了但未能达到正常运行状态。
通过kubectl检查bundle状态时，发现多个bundle处于NotReady状态，特别是fleet-agent-local和mcc-harvester这两个关键组件。

根本原因

经过深入分析，问题主要由以下因素导致：

Rancher集成问题：该Harvester集群已与Rancher 2.10.1集成作为虚拟化管理平台，但使用的Harvester扩展版本(1.0.0)较旧，与Harvester 1.4.0版本存在兼容性问题。
遗留升级任务：系统检测到存在未完成的旧版本升级任务，这些残留任务阻塞了新升级流程的正常执行。
组件依赖关系：多个核心组件的webhook服务未能正常启动，导致依赖它们的其他组件也无法正常运行，形成连锁反应。

解决方案

针对上述问题，可以采取以下解决步骤：

更新Rancher中的Harvester扩展：
- 登录Rancher管理界面
- 导航至扩展管理部分
- 将Harvester扩展从1.0.0版本升级到1.0.3版本
- 等待扩展更新完成并确认所有服务重新启动
清理遗留升级任务：
- 检查系统升级控制器状态
- 清除任何挂起或失败的升级任务
- 确保系统处于干净的升级准备状态
验证组件状态：
- 使用命令kubectl get bundle -A检查所有bundle状态
- 确认所有关键组件显示为"Ready"状态
- 再次运行预检查脚本验证系统健康状态

预防措施

为避免类似问题再次发生，建议采取以下预防措施：

升级前全面检查：在进行任何升级前，务必运行完整的预检查脚本，并解决所有发现的问题。
组件版本兼容性：确保所有相关组件(如Rancher扩展)与目标Harvester版本兼容。
监控系统状态：定期检查集群中各组件的运行状态，及时发现并解决潜在问题。
升级顺序优化：对于集成环境，应先升级管理平台(Rancher)的相关扩展，再执行Harvester本身的升级。

技术要点总结

Harvester与Rancher的集成深度较高，两者版本需要保持兼容。
Webhook服务在Kubernetes生态中扮演重要角色，它们的异常会直接影响整个系统的功能。
升级过程中的状态管理至关重要，残留的升级任务可能导致后续操作失败。
Bundle和Bundledeployments是Harvester管理组件的重要抽象概念，理解它们的状态对问题诊断很有帮助。

通过上述分析和解决方案，用户成功完成了从Harvester 1.4.0到1.4.1版本的升级，系统恢复正常运行状态。这一案例也提醒我们，在复杂的云原生环境中，组件间的依赖关系和版本兼容性是需要特别关注的重点。

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

登录后查看全文

最新内容推荐

Windows版Redis 5.0.14下载资源：高效内存数据库的完美Windows解决方案 Python Django图书借阅管理系统：高效智能的图书馆管理解决方案 Python开发者的macOS终极指南：VSCode安装配置全攻略 Adobe Acrobat XI Pro PDF拼版插件：提升排版效率的专业利器 LabVIEW串口通信开发全攻略：从入门到精通的完整解决方案操作系统概念第六版PDF资源全面指南：适用场景与使用教程 STM32到GD32项目移植完全指南：从兼容性到实战技巧深入解析Windows内核模式驱动管理器：系统驱动管理的终极利器 Windows Server 2016 .NET Framework 3.5 SXS文件下载与安装完整指南基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。