Kubespray集群升级中Multus网络插件导致的节点限制问题分析

2025-05-13 21:49:00作者：翟江哲Frasier

在Kubernetes集群管理工具Kubespray的使用过程中，用户在进行集群升级操作时可能会遇到一个特定场景下的问题：当使用--limit参数将升级操作限制在非控制平面节点（即工作节点）时，升级过程会因为Multus网络插件的配置检查而失败。

问题现象

用户在执行Kubespray的集群升级命令时，指定仅对某个工作节点进行升级（通过--limit=k8s-node01vt参数），系统会报错提示找不到multus_manifest_2属性。错误信息表明，Ansible在执行JMESPath查询时，无法在主机变量中找到预期的Multus清单文件定义。

问题根源

经过分析，这个问题源于Kubespray中Multus网络插件角色的实现方式。在集群升级过程中，Ansible会尝试收集所有节点的Multus配置信息，而这一过程默认假设控制平面节点是可访问的。当升级操作被限制在工作节点时，系统仍然会尝试从控制平面节点获取Multus的清单文件定义，但由于限制条件导致这些节点不可达，从而引发变量未定义的错误。

技术背景

Multus是Kubernetes中的一个CNI插件，它允许单个Pod使用多个网络接口。在Kubespray中，Multus的部署是通过Ansible角色实现的，其中包括了多个清单文件（manifest）的定义。这些清单文件通常存储在控制平面节点上，在集群升级过程中会被重新应用。

解决方案

对于这个特定问题，目前有以下几种解决方法：

跳过Multus相关任务：在执行升级命令时添加--skip-tags=multus参数，暂时跳过Multus插件的配置检查。这种方法适用于不需要更新Multus配置的场景。
完整集群升级：不限制节点范围，对整个集群执行升级操作。这样可以确保所有必要的变量都能被正确收集和处理。
分阶段升级：先升级控制平面节点，确保Multus配置更新完成后再升级工作节点。