Kubespray 升级至 v2.25.0 后 Calico v3.27.3 的 CPU 使用率异常问题分析

2025-05-13 23:50:21作者：咎竹峻Karen

在 Kubernetes 集群网络方案中，Calico 作为一款高性能的网络插件被广泛使用。近期有用户反馈，在将 Kubespray 从 v2.24.1 升级到 v2.25.0 后，随 Kubespray 自动升级的 Calico 也从 v3.25.2 升级到了 v3.27.3，这导致了 calico-node Pod 的 CPU 使用率出现显著上升。

问题现象

升级前，在 Kubespray v2.24.1 和 Kubernetes v1.28.6 环境下，Calico v3.25.2 的每个 calico-node Pod 的 CPU 使用率维持在约 0.05 核的正常水平。升级到 Kubespray v2.25.0 和 Kubernetes v1.29.5 后，Calico 自动升级到 v3.27.3，此时 calico-node Pod 的 CPU 使用率飙升至约 0.4 核，增长了近 8 倍。

虽然这种异常高的 CPU 使用率没有直接导致 Pod 被驱逐，但对于生产环境来说，这种资源消耗的增加无疑会影响集群的整体性能和稳定性。经过进一步测试，将 Calico 升级到 v3.28.1 后，CPU 使用率又恢复到了正常的 0.05 核水平。

问题根源

经过技术分析，这个问题与 Calico v3.27.3 版本中的一个已知问题有关。在该版本中，Calico 的网络策略处理逻辑存在性能退化问题，导致在处理网络策略时消耗了过多的 CPU 资源。特别是在大规模集群或网络策略较多的环境中，这个问题会更加明显。

解决方案

对于遇到此问题的用户，建议采取以下解决方案：

升级到 Calico v3.28.1：这是最直接的解决方案，该版本已经修复了相关的性能问题。用户可以通过修改 Kubespray 配置中的 calico_version 参数来指定使用 v3.28.1 版本。
临时调整资源限制：如果暂时无法升级，可以考虑适当增加 calico-node Pod 的 CPU 资源限制，以避免因资源不足导致的问题。但这只是权宜之计，不能从根本上解决问题。
监控与告警：在问题解决前，加强对 calico-node Pod 的资源监控，设置适当的告警阈值，以便及时发现并处理可能的性能问题。

最佳实践建议

升级前的测试：在进行 Kubespray 升级前，建议在测试环境中先验证新版本的行为，特别是网络插件这类核心组件的性能变化。
版本兼容性检查：在升级 Kubernetes 版本时，要特别注意各组件（如 Calico）的版本兼容性矩阵，确保选择的版本组合是经过验证的。
性能基准测试：对于生产环境，建议建立性能基准测试流程，在每次升级前后进行对比，以便及时发现性能退化问题。
关注社区动态：定期查看 Calico 和 Kubespray 的发布说明和已知问题，了解可能影响生产环境的问题和修复方案。

总结

这次事件再次证明了在 Kubernetes 生态系统中，组件版本间的兼容性和性能表现需要特别关注。作为集群管理员，在规划升级路径时，不仅要考虑功能需求，还需要关注性能指标的变化。Kubespray 社区已经在新版本中修复了这个问题，用户可以通过升级到即将发布的 v2.26 版本或手动指定 Calico 版本为 v3.28.1 来解决这个问题。

kubespray

Deploy a Production Ready Kubernetes Cluster

项目地址：https://gitcode.com/GitHub_Trending/ku/kubespray

登录后查看全文