Cluster API 中旧版 API 版本的移除策略与实践

2025-06-18 10:39:53作者：庞队千Virginia

在 Kubernetes 生态系统中，Cluster API 作为管理 Kubernetes 集群生命周期的关键项目，其自定义资源定义（CRD）的版本演进是一个持续的过程。随着时间推移，旧版 API 版本的移除成为项目维护的重要课题。本文将深入探讨 Cluster API 中旧版 API 版本的移除策略、技术挑战以及实施路径。

版本移除的技术挑战

在 Cluster API 中移除旧版 API 版本面临两个核心技术挑战：

存储版本迁移问题
当从 CRD 中移除某个 API 版本时，必须确保 etcd 中存储的所有自定义资源仍然可读。这需要通过将现有资源重新写入当前存储版本来实现。Cluster API 目前通过 clusterctl upgrade 命令实现了这一功能，但对于不使用 clusterctl 的用户，需要自行实现或依赖 Kubernetes 内置的存储版本迁移功能（自 v1.30 起处于 alpha 阶段）。
管理字段清理问题
Kubernetes 在 managedFields 中按 API 版本存储字段所有权信息。当从 CRD 中移除某个 API 版本时，如果没有清理相应的 managedFields，后续的 apply 操作将会失败。目前 Kubernetes 没有内置机制来自动清理已移除 API 版本的管理字段。

解决方案设计

针对上述挑战，Cluster API 提出了以下解决方案：

实现控制器/协调器模式
计划开发一个可嵌入核心 CAPI 和各提供商的控制器，专门处理存储版本迁移和管理字段清理工作。该方案具有以下特点：
- 支持不使用 clusterctl 的场景
- 便于各提供商复用实现
- 允许选择性禁用存储迁移或字段清理功能
版本移除时间规划
基于 Kubernetes 的 n-3 => n 升级测试策略，Cluster API 制定了详细的版本移除计划：
- v1alpha3 和 v1alpha4：计划在 v1.13 版本（2026年4月）完全移除
- v1beta1：计划在 v1.18 版本（2027年12月）完全移除

实施考量与最佳实践

在实施 API 版本移除时，Cluster API 团队考虑了以下关键因素：

维护成本控制
保留旧版 API 的 Go 类型和转换逻辑会增加维护负担，特别是在添加新字段时需要同步更新多个版本的转换逻辑。
性能优化
保留不必要的老版本 API 会导致大量转换 webhook 调用，增加系统资源消耗。Kubernetes API 服务器会为每个 API 版本（即使未启用）创建 watch，并调用转换 webhook。
用户迁移路径
为确保平滑升级，Cluster API 遵循以下原则：
- 新版本发布后，旧版本仍保留三个版本周期
- 提供额外缓冲版本供用户回退
- 明确记录版本支持策略