Sonobuoy项目中解决Kubernetes主节点不可调度导致E2E测试失败的问题
问题背景
在使用Sonobuoy工具运行Kubernetes一致性测试时,用户遇到了E2E测试失败的情况。测试环境是一个包含1个主节点和2个工作节点的Kubernetes 1.28.6集群,运行在SLES15SP3操作系统上。测试失败的主要原因是主节点被标记为不可调度(Unschedulable),导致测试无法正常启动。
问题分析
从日志中可以清楚地看到关键错误信息:
Jan 24 02:58:04.901: INFO: Unschedulable nodes= 1, maximum value for starting tests= 0
Jan 24 02:58:04.901: INFO: -> Node m2-lr1-dev-vm209096.mip.storage.hpecorp.net [[[ Ready=true, Network(available)=true, Taints=[{node-role.kubernetes.io/master NoSchedule <nil>}], NonblockingTaints=node-role.kubernetes.io/control-plane ]]]
这表明:
- 主节点上设置了
node-role.kubernetes.io/master=NoSchedule的污点 - E2E测试默认不允许有任何不可调度的节点
- 测试因此无法启动,最终导致测试失败
解决方案
Kubernetes E2E测试框架提供了--non-blocking-taints参数,可以指定哪些污点不应该阻止测试运行。通过Sonobuoy的--plugin-env参数,我们可以将这个配置传递给E2E测试插件。
正确的配置方式如下:
./sonobuoy run --mode=certified-conformance --wait \
--plugin-env e2e.E2E_EXTRA_ARGS="--non-blocking-taints=node-role.kubernetes.io/master"
技术细节
-
污点(Taints)的作用:Kubernetes使用污点来阻止Pod被调度到特定节点上。主节点通常会被标记为
NoSchedule污点,以确保工作负载不会被调度到控制平面节点上。 -
E2E测试的要求:默认情况下,E2E测试要求所有节点都必须是可调度的,这是为了确保测试环境的完整性。但在生产环境中,主节点通常都是不可调度的。
-
Non-blocking Taints:通过
--non-blocking-taints参数,我们可以告诉E2E测试框架忽略特定的污点,允许测试在有这些污点的节点存在的情况下继续进行。
最佳实践
-
对于生产环境中的一致性测试,建议总是包含
--non-blocking-taints参数来忽略主节点的污点。 -
如果集群中有其他特殊用途的节点(如GPU节点)也有污点,也需要将这些污点添加到忽略列表中。
-
可以通过以下命令查看集群中所有节点的污点:
kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.spec.taints[*].key}{"\n"}{end}'
总结
在Kubernetes集群上运行Sonobuoy一致性测试时,正确处理主节点的污点是确保测试成功的关键因素之一。通过合理配置--non-blocking-taints参数,我们可以让E2E测试在有控制平面节点的情况下也能正常运行,这对于生产环境中的测试尤为重要。理解这一机制不仅有助于解决测试问题,也能加深对Kubernetes调度系统的理解。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0231
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
JoyAI-VL-Interaction-Preview京东开源首个开源、视觉驱动的实时交互模型——它能实时监控视频流,并自主决定何时发言、保持沉默或委托任务。Jinja00
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0150
kornia🐍 空间人工智能的几何计算机视觉库Python02
PaddleParallel Distributed Deep Learning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)C++02