Kubespray部署中vSphere云提供商与kubelet证书自动续期的兼容性问题分析

2025-05-13 09:45:50作者：劳婵绚Shirley

问题背景

在使用Kubespray v2.24.0部署Kubernetes集群时，当同时配置以下两个特性时会出现兼容性问题：

使用vSphere作为外部云提供商（external_cloud_provider: "vsphere"）
启用了kubelet服务证书自动轮换功能（kubelet_rotate_server_certificates: true）

这种组合会导致kubelet-csr-approver等系统组件无法正常调度，影响集群功能。

技术原理分析

1. 云提供商初始化机制

当配置cloud_provider为external时，Kubespray会在kubelet服务配置中添加相关参数。这会导致节点在初始化时被自动添加一个特殊的污点：

node.cloudprovider.kubernetes.io/uninitialized:NoSchedule

这个污点的设计目的是确保节点必须经过云控制管理器的初始化后才能调度工作负载。在云控制器管理器正常运行前，所有节点都会保持这个污点状态。

2. 证书自动续期机制

kubelet_rotate_server_certificates功能依赖于kubelet-csr-approver控制器来审批证书签名请求。该控制器需要以Pod形式运行在集群中，但由于上述污点的存在，在云控制器管理器完成初始化前，这些Pod无法被调度到任何节点上。

3. 部署顺序问题

Kubespray的部署流程中，节点角色配置（包括污点设置）发生在kubelet-csr-approver部署之前。这种顺序导致了"先有鸡还是先有蛋"的困境：

需要云控制器管理器来清除污点
但云控制器管理器依赖kubelet证书正常工作
而kubelet证书续期又需要kubelet-csr-approver
kubelet-csr-approver又因为污点无法调度

解决方案

临时解决方案

采用分阶段部署策略：

# 第一阶段：跳过证书审批器部署
ansible-playbook -i inventory.ini cluster.yml \
  -e "@inventory/hardening.yaml" \
  --skip-tags=kubelet-csr-approver

# 第二阶段：单独部署证书审批器
ansible-playbook -i inventory.ini cluster.yml \
  -e "@inventory/hardening.yaml" \
  --tags=kubelet-csr-approver

长期改进建议

调整部署顺序：在Kubespray中优化角色部署顺序，确保关键系统组件能优先调度
污点容忍配置：为kubelet-csr-approver添加对云初始化污点的容忍，例如：

tolerations:
- key: "node.cloudprovider.kubernetes.io/uninitialized"
  operator: "Exists"
  effect: "NoSchedule"

条件等待机制：在部署流程中添加对云控制器管理器就绪状态的检查，确保关键组件只在适当时候部署

最佳实践建议

对于生产环境部署，建议：

在非生产环境充分测试云提供商集成方案
考虑使用托管Kubernetes服务来避免这类底层兼容性问题
保持Kubespray版本更新，及时获取官方修复
对于关键系统组件，预先规划好部署顺序和依赖关系

这个问题体现了Kubernetes生态系统中组件间复杂的依赖关系，特别是在云提供商集成场景下。理解这些机制有助于更好地设计和维护生产级Kubernetes集群。

登录后查看全文

Kubespray部署中vSphere云提供商与kubelet证书自动续期的兼容性问题分析

问题背景

技术原理分析

1. 云提供商初始化机制

2. 证书自动续期机制

3. 部署顺序问题

解决方案

临时解决方案

长期改进建议

最佳实践建议

最新内容推荐

项目优选

Kubespray部署中vSphere云提供商与kubelet证书自动续期的兼容性问题分析

问题背景

技术原理分析

1. 云提供商初始化机制

2. 证书自动续期机制

3. 部署顺序问题

解决方案

临时解决方案

长期改进建议

最佳实践建议

相关内容推荐

最新内容推荐

项目优选