Higress 与 AWS ALB Ingress 控制器冲突问题解析

2025-06-09 10:24:55作者：劳婵绚Shirley

问题背景

在 AWS EKS 环境中部署 Higress 网关时，用户尝试通过 Higress Console UI 配置 AI 路由规则时遇到了创建失败的问题。错误信息显示 AWS ALB (Application Load Balancer) 的准入控制器(webhook)拦截了 Higress 创建的 Ingress 资源，导致配置无法完成。

错误现象

当用户通过 Higress Console 创建 AI 路由规则时，系统返回 500 错误，核心错误信息为：

failed calling webhook "vingress.elbv2.k8s.aws": failed to call webhook: Post "https://aws-load-balancer-webhook-service.kube-system.svc:443/validate-networking-v1-ingress?timeout=10s": EOF

进一步查看 AWS ALB 控制器的日志，可以发现存在空指针异常：

runtime error: invalid memory address or nil pointer dereference

问题根源分析

这个问题源于 AWS ALB Ingress 控制器和 Higress 控制器对 Ingress 资源的处理冲突：

AWS ALB 控制器的全局拦截：AWS ALB 控制器的 webhook 会验证集群中所有的 Ingress 资源，无论其指定的 ingressClassName 是什么。这是一种过于激进的设计。
验证逻辑缺陷：AWS ALB 控制器的验证逻辑中存在空指针异常，当遇到不符合其预期的 Ingress 资源时，webhook 会崩溃而不是优雅地拒绝。
版本兼容性问题：这个问题在 AWS ALB 控制器的较老版本中更为常见，新版本已经修复了相关缺陷。

解决方案

针对这个问题，有以下几种解决方案：

升级 AWS ALB 控制器：将 AWS ALB Ingress 控制器升级到最新版本，新版本已经修复了空指针异常问题，并且对非 AWS ALB 相关的 Ingress 资源处理更加友好。
调整 AWS ALB 控制器配置：如果无法立即升级，可以修改 AWS ALB 控制器的配置，使其忽略特定命名空间或特定 ingressClassName 的 Ingress 资源。
禁用 AWS ALB 的验证 webhook：作为临时解决方案，可以暂时禁用 AWS ALB 的验证 webhook，但这会降低集群的安全性。