Harvester项目v1.4版本见证集群升级失败问题分析

2025-06-14 12:46:26作者：鲍丁臣Ursa

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

在Harvester项目的v1.4.0到v1.4.1-rc1版本升级过程中，发现了一个影响见证集群升级的关键问题。该问题表现为当尝试在见证集群上执行升级操作时，由于托管图表harvester未就绪，导致升级流程无法正常触发。

问题背景

Harvester是一个基于Kubernetes构建的开源超融合基础设施(HCI)解决方案。在v1.4版本中引入了见证集群的支持，这是一种特殊配置的集群架构，旨在提高系统的可用性和容错能力。然而，在从v1.4.0升级到v1.4.1-rc1版本的过程中，发现见证集群无法完成升级流程。

问题现象

当用户在3节点或5节点的见证集群环境中尝试执行升级操作时，系统会报告"managed chart harvester is not ready"的错误，导致升级流程无法继续进行。这个问题在标准集群环境中不会出现，是见证集群特有的问题。

技术分析

经过深入分析，发现问题根源在于升级流程中对托管图表状态的检查逻辑。在见证集群的特殊架构下，原有的状态检查机制未能正确识别harvester图表的状态，导致系统误判为未就绪状态。

具体来说，见证集群由于其特殊的网络拓扑和节点角色分配，使得某些组件的启动顺序和依赖关系与标准集群有所不同。当升级控制器检查harvester图表状态时，未能考虑到见证集群的这些特殊性，从而触发了错误的未就绪状态判断。

解决方案

开发团队针对此问题提交了多个修复补丁，主要修改集中在以下几个方面：

改进了升级流程中对托管图表状态的检查逻辑，使其能够正确识别见证集群环境下的组件状态。
增强了升级控制器的容错能力，确保在遇到临时性的组件状态异常时，能够进行合理的重试而不是直接失败。
优化了见证集群特有的组件启动顺序和依赖关系管理。

验证结果

修复后，测试团队在3节点和5节点的见证集群环境中进行了全面验证：

成功完成了3节点见证集群的升级流程，包括：
- 集群初始部署
- 创建默认存储类
- 执行同版本离线升级
同样在5节点见证集群环境中验证了升级流程的完整性。

所有测试用例均顺利通过，验证了修复方案的有效性。

总结

这个问题的解决不仅修复了见证集群的升级功能，也为Harvester项目在特殊集群架构下的稳定性提供了重要保障。通过这次问题的分析和解决，开发团队对见证集群的运行机制有了更深入的理解，这将有助于未来类似问题的预防和快速解决。

对于用户而言，建议在进行见证集群升级前，确保使用包含此修复的版本，并按照官方文档提供的操作指南执行升级流程。

harvester

项目地址：https://gitcode.com/gh_mirrors/har/harvester

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理