Harvester项目中Addon组件卡在Enabling状态的技术分析与解决方案

2025-06-14 19:13:23作者：何将鹤

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

问题现象描述

在Harvester v1.4.0版本的离线环境中，用户报告了Addon组件（如rancher-logging和harvester-vm-dhcp-controller）在启用过程中出现异常状态的问题。具体表现为：

在Web界面中，Addon状态持续显示为"Enabling"，即使相关Pod已经成功部署并运行
尝试禁用或重新启用Addon时，系统提示"existing operation is in progress"错误
升级到v1.4.1-rc1版本时，由于Addon状态异常导致升级流程受阻

技术背景分析

Harvester的Addon系统基于Helm Chart实现，通过Kubernetes Job来完成Chart的安装和卸载。每个Addon的生命周期由以下几个关键组件协同工作：

Addon CRD：定义Addon的期望状态
HelmChart资源：描述要安装的Helm Chart信息
Helm安装Job：实际执行Chart安装的Kubernetes Job
状态控制器：监控Addon状态并更新状态字段

在正常情况下，当用户启用一个Addon时，系统会创建一个Helm安装Job，该Job成功完成后，Addon状态会从"Enabling"变为"Enabled"。

问题根因探究

通过对多个案例的分析，我们发现导致Addon卡在Enabling状态的根本原因可能有以下几种：

时间戳不一致问题：Helm Job重新创建时，Pod的创建时间(creationTimestamp)晚于启动时间(startTime)，导致Kubernetes状态判断异常。这种时间戳混乱会影响控制器对Job完成状态的判断。
状态同步机制缺陷：Harvester的状态控制器可能未能正确处理Helm Job重新创建的情况，导致状态机卡在中间状态。
资源清理不彻底：在快速启用/禁用Addon时，前一个操作残留的资源可能干扰后续操作。
离线环境特殊因素：在离线环境中，镜像拉取和依赖解析可能需要更长时间，增加了操作冲突的可能性。

解决方案与实践

临时解决方案

对于已经出现问题的环境，可以尝试以下步骤恢复：

手动清理残留资源：

helm uninstall rancher-logging -n cattle-logging-system
helm uninstall rancher-logging-crd -n cattle-logging-system

重建Addon资源：

kubectl get addons.harvesterhci.io/rancher-logging -n cattle-logging-system -o yaml > addon-backup.yaml
# 编辑yaml文件，移除status字段并将enabled改为false
kubectl delete addons.harvesterhci.io/rancher-logging -n cattle-logging-system
kubectl apply -f addon-backup.yaml