AWS Controllers for Kubernetes (ACK) EC2控制器资源删除重建问题分析

2025-06-30 01:46:40作者：伍希望

问题背景

在使用AWS Controllers for Kubernetes (ACK)的EC2控制器管理NAT网关资源时，发现当用户通过AWS控制台手动删除NAT网关后，虽然控制器能够检测到资源已被删除，但无法自动重新创建该资源。这是一个典型的云资源管理场景中的状态同步问题。

问题现象

当通过ACK EC2控制器创建NAT网关后，如果用户在AWS控制台中手动删除该资源，会出现以下情况：

控制器能够检测到资源已被删除
资源状态被标记为"deleted"
控制器日志显示资源"out of sync"(不同步)
控制器尝试重新同步但未能成功重建资源

从资源状态可以看到，NAT网关的status.state字段被设置为"deleted"，但控制器没有采取进一步的创建操作。

技术分析

这个问题本质上源于AWS EC2 API的特殊行为模式。当NAT网关被删除时，EC2服务不会立即从系统中移除该资源，而是会在一段时间内保留该资源的记录，并将其状态标记为"deleted"。这种设计可能是为了：

提供操作审计追踪能力
允许短时间内的操作回滚
维护资源关联关系的完整性

ACK EC2控制器在v1.3.5版本中的处理逻辑是：当检测到资源存在但状态为"deleted"时，仅标记资源不同步并定期重试，而不会立即触发重建操作。这种设计在大多数情况下是合理的，但对于NAT网关这类资源，就需要特殊处理。

解决方案

ACK团队在v1.4.1版本中修复了这个问题。修复方案主要包含以下改进：

增强状态检查逻辑：不仅检查资源是否存在，还检查其详细状态
对标记为"deleted"状态的资源采取重建操作
优化重试机制，减少不必要的等待时间

对于用户而言，解决方案很简单：升级到ACK EC2控制器v1.4.1或更高版本即可解决此问题。

最佳实践建议

为了避免类似问题，在使用ACK管理AWS资源时，建议：

尽量通过Kubernetes资源定义来管理AWS资源，避免混合使用控制台操作
保持ACK控制器版本更新，以获取最新的修复和功能
对于关键网络资源如NAT网关，考虑实施备份或冗余方案
监控控制器的日志和资源状态，及时发现并处理同步问题

总结

这个问题展示了云原生资源管理中的典型挑战——如何在声明式管理和实际云服务行为之间保持一致性。ACK项目通过不断改进控制器逻辑来更好地处理各种边缘情况，为用户提供更可靠的资源管理体验。理解这类问题的本质有助于我们更好地设计云原生架构和运维流程。

community

AWS Controllers for Kubernetes (ACK) is a project enabling you to manage AWS services from Kubernetes

项目地址：https://gitcode.com/gh_mirrors/communi/community

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理