AWS Load Balancer Controller 迁移至 Pod Identity 的常见问题与解决方案

2025-06-16 07:39:12作者：何举烈Damon

在 Kubernetes 集群中使用 AWS Load Balancer Controller 时，从传统 IAM 角色迁移到 Pod Identity 可能会遇到凭证相关的错误。本文将深入分析这一问题的根源，并提供详细的排查步骤和解决方案。

问题现象

当用户尝试将 AWS Load Balancer Controller 从传统 IAM 角色迁移到 EKS Pod Identity 时，控制器日志中可能会出现以下两种典型错误：

NoCredentialProviders: no valid providers in chain
failed to refresh cached credentials, no EC2 IMDS role found

这些错误表明控制器无法正确获取 AWS 凭证，导致无法创建或管理负载均衡器资源。

根本原因分析

凭证获取机制的变化

传统 IAM 角色通过节点级别的 EC2 实例元数据服务（IMDS）提供凭证，而 Pod Identity 则通过以下方式提供凭证：

在 Pod 中注入环境变量：
- AWS_CONTAINER_CREDENTIALS_FULL_URI
- AWS_CONTAINER_AUTHORIZATION_TOKEN_FILE
使用专门的令牌文件进行身份验证

常见故障点

元数据服务访问限制：
- IMDS 的跳数限制（hop limit）不足
- 网络策略或安全组阻止了对元数据服务的访问
子网标签配置错误：
- 旧的或错误的集群标签残留在子网上
- 缺少必要的负载均衡器相关标签
Pod Identity 配置问题：
- 服务账户与 IAM 角色的关联不正确
- 信任策略配置错误

解决方案

1. 检查并调整 IMDS 跳数限制

对于仍然依赖 IMDS 的组件，需要确保跳数限制足够：

aws ec2 modify-instance-metadata-options \
  --instance-id <eks-node-id> \
  --http-put-response-hop-limit 3

2. 验证子网标签

确保子网具有正确的标签，特别是：

kubernetes.io/cluster/<cluster-name>: shared 或 owned
其他负载均衡器相关的特定标签

3. 检查 Pod Identity 配置

确认以下配置正确：

EKS Pod Identity 插件已正确安装
服务账户与 IAM 角色已正确关联
IAM 角色的信任策略允许服务账户担任该角色

4. 环境变量验证

在控制器 Pod 中检查以下环境变量是否存在：

AWS_STS_REGIONAL_ENDPOINTS=regional
AWS_DEFAULT_REGION=<region>
AWS_REGION=<region>
AWS_CONTAINER_CREDENTIALS_FULL_URI=http://169.254.170.23/v1/credentials
AWS_CONTAINER_AUTHORIZATION_TOKEN_FILE=/var/run/secrets/pods.eks.amazonaws.com/serviceaccount/eks-pod-identity-token