AWS Load Balancer Controller中ALB目标随机异常问题分析与解决

2025-06-16 03:29:20作者：韦蓉瑛

问题现象

在使用AWS Load Balancer Controller部署应用到EKS集群时，当Pod副本数扩展到2个以上时，ALB目标组中的目标会随机出现健康检查失败的情况。具体表现为：

部分请求（约10%）会返回504网关超时错误
ALB控制台显示目标健康状态不稳定，有时全部健康，有时部分不健康
流量似乎只被路由到单个Pod/工作节点，忽略了其他节点上的Pod

环境配置

该问题出现在以下环境中：

AWS Load Balancer Controller版本：v2.13.1
Kubernetes版本：1.31
EKS版本：eks.25
AWS区域：us-west-1
使用Ingress方式暴露服务

根本原因分析

经过深入排查，发现问题的根源在于EKS工作节点的安全组配置不完整。具体来说，工作节点的安全组缺少了允许节点间互相通信的入站规则。根据EKS最佳实践，工作节点安全组必须包含以下默认入站规则：

协议：全部（-1）
端口范围：全部（0-65535）
源：自身安全组（self）

缺少这条规则会导致：

工作节点之间无法正常通信
ALB健康检查请求无法在所有节点间正常传递
目标健康状态随机波动
流量路由异常

解决方案

对于使用Terraform部署EKS集群的情况，可以通过在EKS模块中添加以下配置来修复此问题：

module "eks" {
  source  = "terraform-aws-modules/eks/aws"
  
  node_security_group_additional_rules = {
    self_rule = {
      description = "允许来自自身的所有流量"
      from_port   = 0
      to_port     = 0
      protocol    = "-1"
      self        = true
      type        = "ingress"
    }
  }
}

这条规则明确允许工作节点安全组内的所有入站流量，确保节点间可以正常通信。

最佳实践建议

为避免类似问题，建议在部署EKS集群时：

始终检查工作节点安全组是否包含必要的默认规则
使用eksctl等官方工具部署集群，这些工具会自动配置正确的安全组规则
在Terraform等基础设施即代码工具中显式声明这些安全规则
定期审核安全组配置，确保符合EKS的安全要求

总结

AWS Load Balancer Controller与EKS集成时，正确配置底层网络基础设施至关重要。工作节点间的通信是ALB正常运行的基础条件之一。通过确保安全组包含必要的自引用规则，可以避免目标健康状态异常和流量路由问题。这个问题也提醒我们，在云原生环境中，网络配置的完整性对应用的高可用性有着直接影响。

aws-load-balancer-controller

A Kubernetes controller for Elastic Load Balancers

项目地址：https://gitcode.com/gh_mirrors/aw/aws-load-balancer-controller

登录后查看全文