AWS Load Balancer Controller中NLB目标组属性变更导致服务中断问题分析

2025-06-16 12:16:58作者：沈韬淼Beryl

在AWS Kubernetes环境中使用AWS Load Balancer Controller管理NLB负载均衡器时，当修改目标组属性（特别是客户端IP保留功能）时，可能会遇到短暂的服务中断问题。本文将深入分析这一现象的技术原因，并探讨可行的解决方案。

问题现象

当管理员修改NLB目标组属性中的preserve_client_ip设置时（从true改为false或反之），会出现约1分钟左右的流量中断。这种中断发生在安全组规则被临时撤销并重新添加的过程中。

AWS Load Balancer Controller在处理NLB目标组属性变更时，会根据preserve_client_ip的不同设置采用完全不同的安全组规则策略：

启用客户端IP保留（preserve_client_ip.enabled=true）时：
- 控制器会使用service.spec.loadBalancerSourceRanges中指定的IP范围
- 对于公开的负载均衡器，默认允许0.0.0.0/0的入站流量
禁用客户端IP保留（preserve_client_ip.enabled=false）时：
- 控制器会使用负载均衡器子网的CIDR块来配置安全组规则
- 仅允许负载均衡器IP访问托管工作负载的工作节点

这种策略差异导致在属性变更时，控制器必须完全替换现有的安全组规则。当前实现中存在一个关键问题：控制器会先撤销旧规则，再添加新规则，而不是采用原子性的"先添加后撤销"方式。

服务中断的根本原因来自两个方面：

对于需要修改preserve_client_ip属性的场景，推荐采用以下无中断迁移方案：

创建新服务进行迁移：
- 部署一个配置了目标属性（preserve_client_ip）的新服务
- 使用加权DNS（如Route53）逐步将流量从旧服务迁移到新服务
避免直接修改关键属性：
- 将preserve_client_ip等关键属性视为不可变配置
- 任何需要变更这些属性的场景都视为新负载均衡器部署
临时解决方案：
- 在维护窗口期间执行属性变更
- 提前通知用户可能的中断时间

在AWS Kubernetes环境中管理NLB时，建议：

通过理解这些底层机制和采用适当的部署策略，可以有效避免因配置变更导致的服务中断问题。

登录后查看全文