Kubespray部署Kubernetes集群时kube_node组为空的问题分析

2025-05-13 12:56:27作者：宣海椒Queenly

Kubespray作为一款流行的Kubernetes集群部署工具，在实际使用中可能会遇到各种配置问题。最近在部署过程中发现了一个关于节点组配置的典型问题，值得深入分析。

问题现象

在全新部署Kubernetes集群时，当inventory文件中kube_node组为空的情况下，Kubespray会在预安装阶段抛出验证失败错误。具体表现为Ansible任务"Stop if either kube_control_plane or kube_node group is empty"执行失败，提示kube_node组的断言检查未通过。

技术背景

Kubespray的预安装检查中包含了严格的节点组验证逻辑。在roles/kubernetes/preinstall/tasks/verify.yml文件中，设计了一个验证任务，专门检查kube_control_plane和kube_node两个关键组是否为空。这个检查的初衷是确保集群部署时有足够的基础节点。

问题本质

该问题的核心在于Kubespray的验证逻辑与用户实际部署策略之间的不匹配。用户可能采用分阶段部署策略：

先部署控制平面节点(kube_control_plane)
后续再添加工作节点(kube_node)

但在当前版本的Kubespray中，预安装检查强制要求这两个组必须同时存在节点，否则就会中断部署流程。

解决方案分析

对于这种部署场景，可以考虑以下几种解决方案：

临时解决方案：注释掉验证任务，但这会绕过所有安全检查，不推荐在生产环境使用。
配置解决方案：设置ignore_assert_errors变量为true，可以跳过这个验证。
架构调整方案：将控制平面节点同时加入kube_node组，这是Kubespray推荐的部署方式，因为控制平面节点默认也会承担工作负载。
分阶段部署方案：如果确实需要纯控制平面节点，可以考虑修改验证逻辑，使其支持kube_node为空的场景。

最佳实践建议

对于生产环境部署，建议采用以下方案：

控制平面节点同时作为工作节点使用（默认行为）
如果必须分离，至少配置一个临时工作节点通过验证
考虑使用节点污点和容忍度来控制工作负载分布

技术实现细节

深入分析验证任务的实现：

- name: Stop if either kube_control_plane or kube_node group is empty
  assert:
    that: "groups.get( item )"
  with_items:
    - kube_control_plane
    - kube_node
  run_once: true
  when: not ignore_assert_errors