AWS SDK for JavaScript v3 中 STS AssumeRoleWithWebIdentity 权限问题深度解析
问题背景
在 AWS SDK for JavaScript v3 的使用过程中,部分用户在使用 EKS 部署应用时遇到了一个特定的权限问题。当应用尝试通过 SSM 客户端从参数存储读取配置时,系统会抛出"Not authorized to perform sts:AssumeRoleWithWebIdentity"的错误。这个问题特别出现在版本升级后,从 v3.577.0 升级到更高版本时开始出现。
问题现象
用户在 EKS 环境中部署的应用,使用 IRSA (IAM Roles for Service Accounts) 为 Kubernetes 工作负载授予 AWS 访问权限。在特定版本(v3.587.0及以上)中,SDK 错误地使用了错误的 IAM 角色进行认证,而不是使用预期的 Pod 角色。
具体表现为:
- 在 v3.583.0 及以下版本中,SDK 正确使用 Pod 角色进行认证
- 在 v3.587.0 及以上版本中,SDK 错误地使用了应用角色而非 Pod 角色
技术分析
凭证链工作机制
AWS SDK 的凭证提供链会按照特定顺序尝试获取凭证。在 EKS 环境中,理想情况下应该自动使用 IRSA 提供的 Web Identity Token 文件来获取临时凭证。然而,当存在 AWS 凭证文件(~/.aws/credentials)时,SDK 会优先考虑文件中的配置。
凭证文件配置分析
用户的凭证文件包含两个配置节:
[default]
source_profile=web_token
role_arn=arn:aws:iam::xxxx:role/example-poc
[web_token]
web_identity_token_file=/var/run/secrets/eks.amazonaws.com/serviceaccount/token
role_arn=arn:aws:iam::xxxx:role/example-poc20240619222733960600000002
在正常工作的情况下(v3.583.0),SDK 会:
- 识别到 web_token 配置节
- 使用指定的 Web Identity Token 文件
- 承担 example-poc20240619222733960600000002 角色
而在问题版本中(v3.587.0+),SDK 则:
- 从 default 配置节开始
- 尝试通过 source_profile 链式承担角色
- 错误地直接尝试承担 example-poc 角色
版本差异原因
这个问题源于 SDK 在 v3.587.0 版本中对凭证链处理逻辑的修改。具体来说,是对角色链式承担(role chaining)机制的调整影响了凭证获取的顺序和行为。
解决方案
AWS 团队在 v3.651.1 版本中修复了这个问题,主要改进包括:
- 恢复了凭证链式承担的正确工作流程
- 保留了没有 role_arn 的最终 credential_source 选项
- 确保了角色承担的顺序符合预期
对于遇到此问题的用户,建议采取以下措施:
- 升级到 v3.651.1 或更高版本
- 检查凭证文件配置,确保角色链配置正确
- 验证 EKS 服务账户的 IAM 角色配置
- 确认 Web Identity Token 文件的路径和权限正确
最佳实践
为了避免类似问题,在使用 AWS SDK 与 EKS IRSA 集成时,建议:
- 明确指定凭证来源,避免依赖默认凭证链
- 在代码中直接配置 Web Identity 凭证提供者
- 保持 SDK 版本更新,但升级前进行充分测试
- 实现完善的日志记录,便于问题排查
- 为不同的环境使用独立的 IAM 角色,避免混淆
通过理解 SDK 的凭证获取机制和及时应用修复版本,开发者可以确保应用在 EKS 环境中稳定可靠地访问 AWS 服务。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust098- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiMo-V2.5-ProMiMo-V2.5-Pro作为旗舰模型,擅⻓处理复杂Agent任务,单次任务可完成近千次⼯具调⽤与⼗余轮上 下⽂压缩。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00