MicroK8s集群中Calico节点Pod频繁重启问题分析与解决

2025-05-26 16:22:29作者：吴年前Myrtle

问题现象

在MicroK8s v1.30集群环境中，用户报告Calico网络插件的节点Pod(calico-node)出现异常行为：这些Pod会不断被终止并重新创建，生命周期通常不超过30秒。同时，集群节点状态显示"NetworkUnavailable"为True，并伴随"CalicoIsDown"的错误信息。

环境背景

该问题出现在一个4节点的物理机集群上，运行环境特点包括：

Ubuntu 22.04操作系统
企业内部网络环境，需要通过中转服务器访问外部网络
已安装Longhorn v1.6.1存储解决方案
启用了大页内存(hugepages)支持
从MicroK8s v1.24逐步升级到v1.30

问题排查过程

用户尝试了多种解决方法均未奏效：

重启Calico的DaemonSet和控制器部署
重启集群节点
按照官方文档更新Calico CIDR配置
让节点离开并重新加入集群(曾短暂解决问题)

深入分析后发现，当某个特定节点处于维护状态(其calico-node Pod为Pending)时，其他节点的Calico Pod能正常运行。而当该节点重新加入集群后，问题立即重现。

根本原因

经过进一步调查，发现集群中存在一个长期处于Pending状态的Pod(已持续数月)。这个Pending状态的Pod与Calico网络组件产生了某种资源冲突或依赖关系，导致Calico节点Pod无法稳定运行。

解决方案

删除所有处于Pending状态的Pod后，Calico网络立即恢复正常。具体操作步骤：

查看集群中所有Pending状态的Pod：

kubectl get pods --all-namespaces --field-selector status.phase=Pending

分析这些Pod无法调度的原因(可选)：

kubectl describe pod <pending-pod-name> -n <namespace>

删除有问题的Pending Pod：

kubectl delete pod <pending-pod-name> -n <namespace>

经验总结

定期检查集群状态：应该建立定期检查机制，及时发现并处理异常Pod，避免长期积累导致复杂问题。
Pending Pod的影响：Pending状态的Pod可能占用关键资源或导致调度冲突，影响集群核心组件运行。
问题关联性：表面看似无关的问题(如网络组件异常)可能与集群中其他异常状态存在关联。
升级注意事项：在升级Kubernetes版本时，建议先清理集群中的异常资源，确保升级环境干净。

预防措施

设置监控告警，当Pod处于Pending状态超过阈值时及时通知管理员。
定期执行集群健康检查，包括：
- 检查所有核心系统Pod状态
- 验证网络连通性
- 检查存储系统状态
在实施重大变更(如版本升级)前，先清理集群中的异常资源。

通过这次问题解决过程，我们认识到Kubernetes集群中的各种组件之间存在复杂的依赖关系，一个小问题可能引发连锁反应。保持集群环境的整洁和健康状态是稳定运行的关键。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

468

461

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.03 K

644