Kubesphere 4.1.2 安装后集群状态异常问题分析与解决

2025-05-14 04:14:00作者：咎竹峻Karen

在 Kubernetes 集群中部署 Kubesphere 4.1.2 版本时，部分用户可能会遇到控制台提示"Host cluster is not ready"的错误。本文将从技术原理和解决方案两个维度，深入剖析该问题的成因及修复方法。

问题现象

当用户在自建 Kubernetes 集群（如文中使用的 K3s v1.31.1 集群）通过 Helm 成功安装 Kubesphere 4.1.2 后，虽然部署过程没有报错，但管理界面会显示集群未就绪状态。通过检查 ks-controller-manager 组件的日志，可以发现以下关键错误信息：

TLS handshake error: remote error: tls: bad certificate
failed calling webhook "validating-cluster.kubesphere.io"
x509: certificate signed by unknown authority

根本原因

该问题的核心在于新旧版本兼容性冲突。具体表现为：

遗留的验证性 Webhook：当环境是从 Kubesphere 3.x 版本升级而来时，系统中会残留旧版本的验证性 Webhook 配置（validating-cluster.kubesphere.io）。
证书验证失败：4.1.2 版本的控制管理器尝试与这个遗留的 Webhook 通信时，由于证书链不匹配导致 TLS 握手失败。
集群状态受阻：这个验证失败会阻止系统为 host 集群添加必要的 Finalizer，进而导致集群状态无法正常更新。

解决方案

通过删除遗留的验证性 Webhook 配置即可解决问题：

kubectl delete validatingwebhookconfigurations cluster.kubesphere.io

该命令会移除陈旧的验证配置，使系统能够继续正常的集群状态管理流程。

深度解析

Webhook 机制变更：Kubesphere 4.x 版本对集群验证机制进行了重构，不再依赖旧有的 validating-cluster webhook，而是采用新的验证逻辑。
升级路径差异：全新安装的环境不会出现此问题，只有从 3.x 升级的环境需要特别注意这类配置残留。
证书管理体系：该问题也反映出 Kubesphere 在版本迭代过程中对证书管理体系的改进，新版本使用了不同的 CA 体系。