Kubernetes kubeadm项目中ControlPlaneKubeletLocalMode特性引发的测试问题分析

2025-06-18 09:35:09作者：滕妙奇

在Kubernetes集群部署工具kubeadm的最新开发中，一个名为ControlPlaneKubeletLocalMode的特性门控被默认启用后，引发了一系列端到端测试失败问题。本文将深入分析这一问题的技术背景、产生原因以及解决方案。

问题背景

ControlPlaneKubeletLocalMode是一个控制平面kubelet本地运行模式的特性门控。当该特性启用时，kubeadm会配置控制平面节点上的kubelet直接连接到本地API服务器实例，而不是通过负载均衡器。这一设计变更旨在提高控制平面组件的可靠性和性能。

然而，当该特性被默认启用后，kubeadm的多个端到端测试开始出现失败，主要包括三类测试场景：

在模拟执行测试场景中，kubeadm会执行加入集群的流程但不会实际启动kubelet服务。问题出在runKubeletWaitBootstrapPhase函数会尝试等待kubelet变为健康状态，但在模拟执行模式下kubelet根本不会启动，导致测试超时失败。

外部CA测试使用自定义方式为工作节点和控制平面节点生成相同的kubelet配置文件。在ControlPlaneKubeletLocalMode启用后，kubelet配置文件中的API服务器地址被硬编码为本地IP，而工作节点上并没有本地运行的API服务器实例，导致连接被拒绝。

特性门控显式禁用的测试用例中，验证逻辑假设kubelet配置文件中的API服务器地址应该是负载均衡器地址，但实际生成的配置文件中仍然是本地IP地址，导致验证失败。

针对上述问题，开发团队实施了以下修复措施：

对于模拟执行测试，在runKubeletWaitBootstrapPhase函数中添加了针对dry-run模式的特殊处理，避免在不启动kubelet的情况下尝试等待其健康状态。
对于外部CA测试，修改了测试逻辑使其能够区分控制平面节点和工作节点，为它们生成不同类型的kubelet配置文件：控制平面节点使用本地API服务器地址，工作节点使用负载均衡器地址。
对于特性门控禁用测试，更新了验证逻辑以正确匹配预期的kubelet配置。