AWS Controllers for Kubernetes中AMP工作空间恢复问题的技术解析

2025-07-01 00:45:38作者：农烁颖Land

AWS Controllers for Kubernetes (ACK) is a project enabling you to manage AWS services from Kubernetes

项目地址：https://gitcode.com/gh_mirrors/communi/community

问题背景

在使用AWS Controllers for Kubernetes（ACK）管理Amazon Managed Service for Prometheus（AMP）工作空间时，用户发现当通过Velero进行备份恢复时，ACK控制器会错误地创建新的AMP工作空间，而不是重用现有的工作空间。这种情况发生在删除AMP自定义资源（CR）后尝试恢复的场景中。

技术原理分析

ACK控制器对AMP工作空间的管理机制基于状态跟踪。具体来说，控制器通过检查CR的status.workspaceID字段来判断工作空间是否存在。当该字段为空时，控制器会认为需要创建新的工作空间。

在Velero恢复过程中，即使包含了状态资源的恢复（通过--status-include-resources参数），由于ACK控制器持续运行，它会在恢复完成前检测到CR的缺失状态，从而触发新工作空间的创建流程。

根本原因

问题的核心在于控制器的工作流程与备份恢复操作的时间竞争：

删除CR时，控制器会立即检测到变更
在Velero恢复完成前，控制器已经开始了资源重建流程
恢复后的状态信息无法覆盖控制器已经启动的创建操作

解决方案

目前有两种可行的解决方案：

临时解决方案（推荐）

在执行Velero恢复操作前，先将ACK控制器副本数缩容到0，待恢复完成后再扩容回原副本数。这种方法简单有效，可以确保恢复过程中控制器不会干扰资源状态。

长期解决方案

等待ACK社区实现更完善的备份恢复支持功能。目前社区正在讨论为所有ACK服务添加原生备份恢复支持，这将从根本上解决此类问题。

最佳实践建议

对于生产环境中的AMP工作空间管理，建议：

在执行任何可能影响CR的操作前，先暂停控制器
建立标准化的备份恢复流程文档
考虑为关键资源设置适当的删除策略（如保留策略）
监控控制器日志以发现异常的资源操作

总结

ACK控制器的设计优先考虑实时响应资源变更，这在大多数场景下是合理的，但在备份恢复等特殊操作时可能产生意外行为。理解控制器的工作原理并采取适当的预防措施，可以确保AMP工作空间管理的稳定性和可靠性。随着ACK项目的持续发展，未来版本有望提供更完善的备份恢复原生支持。

AWS Controllers for Kubernetes (ACK) is a project enabling you to manage AWS services from Kubernetes

项目地址：https://gitcode.com/gh_mirrors/communi/community

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统