RKE2项目中S3快照上传失败问题的分析与解决

2025-07-09 15:09:17作者：殷蕙予

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

问题现象

在RKE2集群中，当使用AWS IAM角色认证配置ETCD快照自动备份到S3存储时，系统会出现一个典型问题：初始阶段快照能够正常上传，但经过约5次成功上传后（时间跨度约5小时），后续上传操作会开始失败，并出现"Access Denied"错误提示。值得注意的是，本地磁盘备份仍能正常进行，只是S3上传功能失效。

问题根源

经过技术团队深入分析，发现该问题与minio-go客户端库的IAM凭证刷新机制有关。具体表现为：

RKE2 v1.31.7及更早版本使用的minio-go v7.0.83存在已知缺陷，无法正确处理IAM角色的临时凭证刷新
AWS IAM角色的临时凭证默认有效期为1小时，当凭证过期后，客户端未能正确获取新凭证
系统在初始阶段能够正常工作是因为使用了初始获取的有效凭证
大约5次上传后失败的现象与凭证刷新失败直接相关

技术背景

在AWS环境中，使用IAM角色进行认证时，系统会颁发临时安全凭证，这些凭证包含：

访问密钥ID
秘密访问密钥
安全令牌
过期时间（通常默认为1小时）

应用程序需要通过STS（安全令牌服务）定期刷新这些凭证以维持访问权限。minio-go客户端库本应自动处理这一刷新过程，但在v7.0.83版本中存在实现缺陷。

解决方案

RKE2技术团队已经通过以下措施解决了该问题：

将minio-go客户端库升级至v7.0.84或更高版本
该版本修复了IAM凭证自动刷新的相关缺陷
更新已包含在RKE2 v1.30.13-rc2+rke2r1及后续版本中

用户验证表明，升级到修复版本后，S3快照上传功能恢复正常，不再出现周期性失败的情况。

临时应对措施

对于暂时无法升级的用户，可以采用以下临时解决方案：

设置定期重启rke2-server服务的计划任务
每次服务重启后会重新获取有效的IAM凭证
这种方法虽然不够优雅，但可以维持基本功能

最佳实践建议

为避免类似问题，建议用户：

定期升级RKE2到最新稳定版本
监控S3备份作业的执行状态
设置适当的告警机制，及时发现备份失败情况
考虑实现多层次的备份策略，不依赖单一备份目标

该问题的解决体现了开源社区协作的优势，用户反馈与开发者响应相结合，最终找到了根本原因并提供了有效解决方案。

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter