Terraform AWS EKS模块中Karpenter部署问题排查指南

2025-06-12 18:26:26作者：盛欣凯Ernestine

问题现象

在使用Terraform AWS EKS模块(版本20.29.0)部署Karpenter时，用户遇到了Pod调度失败的问题。具体表现为应用Pod处于Pending状态，错误信息显示"0/2 nodes are available: 2 node(s) had untolerated taint {CriticalAddonsOnly: true}"。

问题分析

核心问题定位

这个问题的本质是Pod无法容忍节点上的特定污点(CriticalAddonsOnly: true)，导致调度失败。在Kubernetes中，污点(Taint)和容忍(Toleration)机制用于控制Pod可以被调度到哪些节点上。

典型场景分析

污点与容忍不匹配：EKS控制平面节点通常会带有CriticalAddonsOnly污点，这是为了确保只有关键系统组件(如CoreDNS)才能在这些节点上运行。
子网选择器配置错误：用户最终发现问题的根源是subnetSelectorTerms配置中指定的标签与VPC中实际的子网标签不匹配，这导致Karpenter无法正确识别可用的子网来创建新节点。

解决方案

正确配置子网选择器

确保Karpenter的subnetSelectorTerms配置与VPC子网的实际标签完全一致。这是Karpenter能够自动发现和利用子网的关键配置。

Pod容忍配置

对于需要在特定节点上运行的工作负载，需要在Pod规范中添加相应的容忍配置。例如：

tolerations:
- key: "CriticalAddonsOnly"
  operator: "Exists"
  effect: "NoSchedule"

检查清单

验证VPC子网标签是否与Karpenter配置匹配
检查Pod的容忍配置是否覆盖了节点的污点
确认Karpenter控制器日志是否有错误信息
检查节点资源是否充足(CPU、内存等)

最佳实践建议

标签管理：建立统一的标签策略，确保基础设施各组件间的标签一致性。
污点策略：合理规划节点污点策略，区分系统组件节点和工作负载节点。
测试验证：部署前使用kubectl describe检查节点污点和Pod容忍配置。
渐进式部署：先部署简单测试Pod验证Karpenter功能，再部署生产工作负载。

总结

Karpenter的自动节点供应功能依赖于正确的网络配置和Kubernetes调度策略。通过仔细检查子网选择器和污点容忍配置，可以解决大多数Pod调度失败的问题。建议在部署前充分理解Karpenter的工作原理和依赖关系，这样可以避免类似问题的发生。

terraform-aws-eks

Terraform module to create Amazon Elastic Kubernetes (EKS) resources 🇺🇦

项目地址：https://gitcode.com/GitHub_Trending/te/terraform-aws-eks

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。