Harvester项目升级控制器对暂停状态管理图表的恢复机制解析

2025-06-13 22:50:17作者：毕习沙Eudora

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

背景介绍

在Harvester项目（一个基于Kubernetes构建的开源超融合基础设施HCI解决方案）的升级过程中，系统会通过管理图表（ManagedCharts）来协调各种组件的升级。这些管理图表在升级过程中会被临时暂停（paused），以确保升级过程的原子性和一致性。然而，在某些异常情况下，特别是当升级过程被中断时，这些图表可能会保持暂停状态，导致系统功能异常。

问题本质

在Harvester v1.5.1版本之前，当升级过程被意外中断（如手动取消升级或升级过程中出现错误）时，系统无法自动恢复那些被暂停的管理图表。这会导致相关功能组件无法正常运行，需要管理员手动干预才能恢复系统完整功能。

技术实现

Harvester团队在v1.5.1版本中实现了升级控制器的增强功能，使其能够在以下情况下自动恢复被暂停的管理图表：

正常升级完成时：当升级成功完成所有步骤后，控制器会自动恢复所有被暂停的图表。
升级被取消时：如果升级过程被手动取消，控制器会检测并恢复那些仍处于暂停状态的图表。
升级失败时：当升级过程中出现错误导致失败时，控制器会尝试恢复图表到正常状态。

实现细节

升级控制器通过以下机制实现这一功能：

状态跟踪：控制器会跟踪每个管理图表的暂停状态，记录哪些图表因升级而被暂停。
异常处理：在检测到升级过程异常终止时，控制器会遍历所有被它暂停的图表，并将它们的spec.paused字段设置为false。
版本兼容性：该功能在不同版本间的行为有所不同：
- v1.4.3及更早版本：无法自动恢复暂停的图表
- v1.5.1版本：当升级被取消且Harvester Pod已升级时，可以恢复图表
- v1.6.0及以上版本：完全支持在各种异常情况下恢复图表

实际应用场景

这一增强功能特别适用于以下场景：

升级卡顿时：当升级过程卡在某个步骤（如upgrade_rancher）时，管理员可以安全地取消升级，系统会自动恢复图表状态。
资源清理：在升级被取消后，系统会清理相关资源（如repo），此时图表可能会进入错误状态（如"no chart version found"），但至少它们不会被错误地保持在暂停状态。
系统恢复：在升级失败后，系统能够更快地恢复到可用状态，减少管理员干预的需要。