AWS .NET SDK在ECS Fargate中长期运行时出现凭证过期问题分析

2025-07-04 11:38:02作者：尤峻淳Whitney

问题现象

在使用AWS .NET SDK（特别是AWSSDK.S3 3.3.0版本）的.NET Core 3.1应用程序中，当部署在ECS Fargate环境中长时间运行（超过5-6小时）后，会出现"The provided token is expired"的错误。这个错误主要发生在通过AmazonS3Client获取S3对象时。

技术背景

在ECS环境中，AWS SDK默认会通过检查AWS_CONTAINER_CREDENTIALS_RELATIVE_URI环境变量来使用IAM角色获取短期会话凭证。这些凭证具有有效期限制，通常为几小时。SDK内部通过ECSTaskCredentials类继承自RefreshingAWSCredentials，理论上应该能够自动刷新凭证，在过期前15分钟就会进行更新。

问题根源分析

凭证刷新机制失效：虽然SDK设计了自动刷新机制，但在某些边缘情况下，凭证可能在服务调用过程中过期，导致"token expired"错误。
环境变量干扰：如果环境中同时设置了AWS_ACCESS_KEY_ID、AWS_SECRET_ACCESS_KEY和AWS_SESSION_TOKEN等环境变量，SDK会优先使用这些变量中的凭证，而不会使用ECS任务角色凭证。这可能导致凭证无法自动更新。
重试策略不足：虽然用户设置了MaxErrorRetry=5，但如果没有正确配置ResignRetries=true（对于S3默认是true），在凭证过期时可能无法正确重试。

解决方案建议

检查凭证来源：
- 确认环境变量中没有设置AWS_*相关的凭证变量
- 确保ECS任务角色配置正确
- 添加日志检查实际使用的凭证来源
增强重试机制：
- 显式设置ResignRetries=true
- 在应用层实现重试逻辑，特别是在创建新客户端实例时

启用详细日志：

Amazon.AWSConfigs.LoggingConfig.LogResponses = Amazon.ResponseLoggingOption.Always;
Amazon.AWSConfigs.LoggingConfig.LogTo = Amazon.LoggingOptions.Console;
Amazon.AWSConfigs.AddTraceListener("Amazon", new System.Diagnostics.ConsoleTraceListener());

通过这种方式可以监控凭证刷新和请求重试情况。