RKE2项目中Calico CNI 3.29.2版本的竞态条件问题分析

2025-07-09 02:20:13作者：柯茵沙

rke2

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

在RKE2集群部署过程中，当使用Calico CNI 3.29.2版本时，我们观察到了一个关键的竞态条件问题。这个问题主要影响集群初始化阶段的稳定性，特别是在多节点同时加入集群的场景下。

问题现象

在集群初始化阶段，特别是当多个节点同时加入时，会出现以下典型症状：

部分节点状态变为NotReady
核心Pod（如helm-install-rke2-*）启动失败
calico-typha Pod出现授权错误
节点kubelet日志显示无法获取ClusterInformation资源

根本原因分析

经过深入排查，我们发现问题的根源在于Calico 3.29.2版本中的两个关键竞态条件：

ClusterInformation资源创建延迟
Calico CNI插件在初始化时需要访问clusterinformations.crd.projectcalico.org资源，但这个资源是由第一个Calico节点创建的。当CNI插件尝试访问该资源时，它可能尚未被创建，导致Pod创建失败。
RBAC资源同步问题
calico-typha Pod启动时需要的"calico-typha" ClusterRole可能尚未创建完成，导致Pod因授权错误而失败。这个问题虽然会被Kubernetes的自愈机制（自动重启Pod）解决，但会影响集群初始化的平滑性。

技术细节

从日志分析可以看到两个关键错误模式：

CNI插件错误：

error getting ClusterInformation: resource does not exist: ClusterInformation(default) with error: clusterinformations.crd.projectcalico.org "default" not found

Typha授权错误：

Failed to get Typha endpoint from Kubernetes error=Unauthorized

这些错误表明系统组件之间存在时序依赖关系，而Calico 3.29.2版本没有正确处理这些依赖。

影响评估

虽然这些问题最终会被Kubernetes的自愈机制解决（通过Pod自动重启），但它们会导致：

集群初始化时间延长
初期部分节点状态不稳定
运维监控系统可能产生不必要的告警

解决方案

RKE2团队已经在新版本中解决了这个问题。解决方案主要包括：

调整组件启动顺序，确保关键CRD资源优先创建
增加对资源可用性的检查机制
优化RBAC资源的同步时序

验证结果

在修复后的版本中，我们验证了以下场景：

多节点同时加入集群
快速连续部署多个工作节点
集群初始化过程中的资源创建顺序

所有测试场景均显示集群初始化过程稳定，不再出现节点NotReady状态或核心Pod创建失败的情况。

最佳实践建议

对于使用RKE2和Calico的用户，我们建议：

确保使用已修复该问题的RKE2版本
在大型集群部署时，考虑分批次加入节点
监控集群初始化阶段的Calico组件状态
为关键组件配置适当的Pod重启策略

这个问题展示了Kubernetes生态系统中组件间时序依赖的重要性，也体现了RKE2团队对集群初始化稳定性的持续改进。

rke2

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271