Harvester项目中的存储类默认设置冲突问题分析与解决方案

2025-06-14 19:05:29作者：何举烈Damon

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

问题背景

在Harvester v1.4.0至v1.4.1-rc1版本的升级过程中，部分用户遇到了一个与存储类(StorageClass)相关的升级障碍。具体表现为当集群中存在非默认存储类设置时，升级过程会被webhook拦截，提示"default storage class already exists"错误。

问题现象

在3节点见证(witness)集群环境中，当用户创建了一个自定义存储类(如名为sc2的存储类)并将其设置为默认存储类后，尝试执行Harvester版本升级时会遇到以下错误：

admission webhook "validator.harvesterhci.io" denied the request: managed chart harvester is not ready, please wait for it to be ready

进一步检查ManagedChart状态时，会发现更详细的错误信息：

cannot patch "harvester-longhorn" with kind StorageClass: admission webhook "validator.harvesterhci.io" denied the request: default storage class %!s(MISSING) already exists, please reset it first

根本原因分析

经过深入调查，发现该问题由以下几个因素共同导致：

Harvester chart的默认行为：Harvester chart在部署时会自动将harvester-longhorn存储类标记为默认(default)存储类，通过设置storageclass.kubernetes.io/is-default-class: "true"注解。
集群扩展时的自动部署：当集群处于扩展状态(如添加新节点)时，Harvester相关部署会自动扩展，这是由于management.cattle.io/scale-available注解的存在。
webhook验证冲突：当用户已经设置了其他存储类为默认存储类，而Harvester managedchart尝试重新部署并更新变更时，webhook会拦截这种冲突操作，导致升级失败。

解决方案

针对这一问题，开发团队提出了以下解决方案：

chart模板条件增强：在chart定义中添加更多条件判断，使用Helm的lookup功能检查是否已有其他存储类设置了默认注解。
控制器逻辑优化：当任何非harvester-longhorn存储类被设置为默认时，Harvester控制器应自动将managedchart中的spec.values.storageClass.defaultStorageClass字段设置为false，避免冲突。
临时解决方案：在升级前手动编辑managedchart，将spec.values.storageClass.defaultStorageClass设置为false。

技术实现细节

修复方案主要包含以下技术实现：

Helm模板条件判断：在harvester-storageclass.yaml模板中添加条件判断，确保只有在没有其他默认存储类时才设置harvester-longhorn为默认。
webhook验证逻辑优化：修改webhook验证逻辑，正确处理存储类默认状态的变更请求。
超时设置修复：确保所有webhook配置都设置了适当的timeoutSeconds值，避免因超时导致的升级失败。