Cluster API中MachineSet删除策略与注解行为不一致问题分析

2025-06-18 12:14:14作者：凤尚柏Louis

问题背景

在Kubernetes生态系统中，Cluster API项目负责提供声明式API和工具来简化Kubernetes集群的创建、配置和管理。其中，MachineSet控制器负责维护一组具有相同配置的机器节点。

核心问题

在MachineSet控制器的实现中，存在一个关于删除策略与删除注解行为不一致的问题。具体表现为：

当使用"newest"（最新优先）和"oldest"（最旧优先）删除策略时，控制器会优先考虑带有cluster.x-k8s.io/delete-machine注解的不健康机器
但当使用"random"（随机）删除策略时，该注解却被忽略，不会优先处理带有此注解的机器

技术细节分析

在MachineSet控制器的源码实现中，删除策略的逻辑位于machineset_delete_policy.go文件中。不同删除策略采用了不同的筛选逻辑：

newest/oldest策略：在排序机器列表时会检查delete-machine注解，带有该注解的机器会被优先处理
random策略：直接随机选择机器，没有特殊处理注解的逻辑

这种不一致性可能导致用户在切换删除策略时遇到意外行为，特别是当用户显式标记某些机器需要删除时，期望这些机器能被优先处理。

影响范围

该问题影响所有使用MachineSet控制器并依赖delete-machine注解来管理机器生命周期的Cluster API用户。特别是在以下场景中问题更为明显：

需要手动干预机器删除顺序时
使用自动扩展机制结合自定义删除逻辑时
在不同删除策略间切换时

解决方案建议

从技术实现角度来看，解决方案应确保所有删除策略对delete-machine注解的处理保持一致。具体可以：

修改random策略实现，使其在随机选择前先筛选出带有注解的机器
或者在所有策略中统一移除对注解的特殊处理（不推荐，会破坏现有依赖此功能的工作负载）

最佳实践是保持所有策略对注解的处理一致，这样用户在不同策略间切换时不会遇到意外行为。

总结

Cluster API中MachineSet控制器的删除策略实现存在不一致性，这可能导致用户在使用不同策略时遇到意外行为。建议统一各策略对delete-machine注解的处理逻辑，以提供一致的用户体验。该问题的修复将提高API的可靠性和可预测性，特别是在自动化运维场景中。

cluster-api

Home for Cluster API, a subproject of sig-cluster-lifecycle

项目地址：https://gitcode.com/gh_mirrors/cl/cluster-api

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781