在terraform-aws-eks中自定义Cluster Autoscaler参数的最佳实践

2025-06-12 18:54:28作者：裘旻烁

在AWS EKS集群管理中，Cluster Autoscaler是一个至关重要的组件，它负责根据工作负载需求自动调整节点数量。然而，默认配置可能无法满足所有使用场景的需求，特别是当我们需要精细控制自动缩放行为时。

Cluster Autoscaler的核心参数

Cluster Autoscaler提供了多个可配置参数，其中scale-down-utilization-threshold是一个关键指标。它定义了节点资源利用率的下限阈值，当节点资源使用率低于此值时，Cluster Autoscaler会考虑将该节点上的工作负载重新调度并移除该节点。

默认情况下，AWS EKS中的Cluster Autoscaler将此阈值设置为0.5（即50%）。这意味着如果一个节点的CPU和内存使用率都低于50%，且该节点上的所有Pod都可以被重新调度到其他节点上，那么该节点就会被标记为可删除。

实际应用场景中的挑战

在实际生产环境中，我们经常会遇到以下情况：

DaemonSet的影响：像kube-proxy、aws-node这样的系统组件会以DaemonSet形式运行在每个节点上，它们会占用一定的资源，可能导致节点利用率始终高于默认阈值。
突发性负载：某些应用可能有突发性负载特征，在低负载时期节点利用率可能长期处于较低水平。
成本优化需求：在开发测试环境中，我们可能希望更积极地缩减节点以节省成本。

解决方案实现

在terraform-aws-eks模块中，我们可以通过以下方式自定义Cluster Autoscaler参数：

module "eks" {
  source = "terraform-aws-modules/eks/aws"

  cluster_name    = "my-cluster"
  cluster_version = "1.27"

  # 其他配置...

  cluster_addons = {
    aws-ebs-csi-driver = {
      most_recent = true
    }
    kube-proxy = {
      most_recent = true
    }
    vpc-cni = {
      most_recent = true
    }
    coredns = {
      most_recent = true
    }
  }

  # 自定义Cluster Autoscaler参数
  cluster_autoscaler_extra_args = {
    "scale-down-utilization-threshold" = "0.3"
    "scale-down-delay-after-add"       = "10m"
    "scale-down-unneeded-time"        = "10m"
  }
}

参数调优建议

scale-down-utilization-threshold：
- 生产环境建议值：0.3-0.5
- 开发测试环境建议值：0.2-0.3
- 设置过低可能导致频繁的节点伸缩，影响应用稳定性
scale-down-delay-after-add：
- 控制节点扩容后开始考虑缩容的等待时间
- 建议值：5-15分钟
scale-down-unneeded-time：
- 节点被标记为"不需要"后实际删除前的等待时间
- 建议值：5-15分钟

注意事项

修改这些参数前，需要充分理解其对集群稳定性的影响。
建议先在非生产环境测试新的参数配置。
监控集群的自动缩放行为，确保其符合预期。
考虑结合Pod Disruption Budget(PDB)来确保关键应用在节点缩容时不会中断。

通过合理配置这些参数，我们可以在保证应用可用性的同时，优化资源使用效率，降低云成本。

terraform-aws-eks

Terraform module to create Amazon Elastic Kubernetes (EKS) resources 🇺🇦

项目地址：https://gitcode.com/GitHub_Trending/te/terraform-aws-eks

登录后查看全文