AWS Load Balancer Controller中TargetGroupBinding缺失流量端口问题分析

2025-06-16 06:28:27作者：魏侃纯Zoe

问题背景

在Kubernetes环境中使用AWS Load Balancer Controller时，当用户创建带有特定配置的LoadBalancer类型Service时，可能会遇到TargetGroupBinding资源中缺少流量端口的问题。这个问题主要出现在以下场景：

Service配置了不同于健康检查端口的流量端口
Service通过注解指定了SSL证书
健康检查端口通过注解显式配置

问题现象

当用户创建具有如下特征的Service时：

使用service.beta.kubernetes.io/aws-load-balancer-ssl-cert注解指定SSL证书
通过service.beta.kubernetes.io/aws-load-balancer-healthcheck-port配置健康检查端口
流量端口(如443)与健康检查端口(如8000)不同

生成的TargetGroupBinding资源中只会包含健康检查端口(8000)，而缺失了实际的流量端口(443)。这会导致网络流量无法正确路由到后端Pod。

问题根源

该问题源于AWS Load Balancer Controller 2.13.0版本引入的一个代码变更。在2.12.0及之前版本中，控制器能够正确处理这种情况，将两个端口都添加到TargetGroupBinding中。但在2.13.0版本中，当Service配置了SSL证书时，控制器的端口处理逻辑出现了缺陷，导致只保留了健康检查端口。

影响范围

影响版本：AWS Load Balancer Controller 2.13.0及以上版本
不影响版本：2.12.0及以下版本
影响场景：使用NLB(网络负载均衡器)且配置了SSL证书和独立健康检查端口的Service

解决方案

AWS Load Balancer Controller团队已经识别并修复了这个问题。修复方案主要涉及：

修正端口处理逻辑，确保在配置SSL证书时仍能正确识别和保留流量端口
确保健康检查端口和流量端口都能正确反映在TargetGroupBinding资源中

用户可以通过升级到包含修复的版本(2.13.2及以上)来解决此问题。

临时解决方案

如果无法立即升级，可以考虑以下临时解决方案：

回退到2.12.0版本
暂时移除SSL证书注解(不推荐用于生产环境)
手动编辑TargetGroupBinding资源添加缺失的端口(需要持续维护)

最佳实践建议

为了避免类似问题，建议：

在升级控制器版本前，先在测试环境验证关键功能
使用声明式配置而非手动修改生成的资源
监控TargetGroupBinding资源的状态，确保其包含所有必要的端口配置
定期检查AWS Load Balancer Controller的发布说明，了解已知问题和修复

总结

AWS Load Balancer Controller作为Kubernetes与AWS负载均衡服务集成的关键组件，其稳定性对生产环境至关重要。这次发现的TargetGroupBinding端口缺失问题提醒我们，在复杂网络配置场景下需要特别注意控制器的行为验证。通过及时升级和遵循最佳实践，可以确保服务流量的可靠路由和负载均衡。

aws-load-balancer-controller

A Kubernetes controller for Elastic Load Balancers

项目地址：https://gitcode.com/gh_mirrors/aw/aws-load-balancer-controller

登录后查看全文