KubeEdge边缘节点NotReady状态问题排查与解决方案

2025-05-30 23:42:26作者：农烁颖Land

问题背景

在KubeEdge边缘计算环境中，边缘节点突然出现NotReady状态是一个常见但影响较大的问题。本文将以一个实际案例为基础，深入分析边缘节点不可用的根本原因，并提供完整的解决方案。

现象描述

用户报告其KubeEdge集群中的边缘节点在运行三个月后突然变为NotReady状态。主要症状包括：

边缘节点状态间歇性在Ready和NotReady之间切换
边缘核心组件edgecore日志显示WebSocket连接异常
云核心组件cloudcore日志显示节点被识别为已删除状态

关键错误分析

通过对日志的深入分析，我们发现几个关键错误信息：

WebSocket连接问题

ws.go:108] failed to read message, error: websocket: close 1006 (abnormal closure): unexpected EOF

文件系统信息获取失败

cri_stats_provider.go:448] "Failed to get the info of the filesystem with mountpoint" err="unable to find data in memory cache" mountpoint="/var/lib/docker"

节点同步失败

kubelet.go:2213] "Skipping pod synchronization" err="[container runtime status check may not have completed yet, PLEG is not healthy: pleg has yet to be successful]"

根本原因

经过综合分析，问题的根本原因在于：

CNI插件异常：Cilium网络插件出现异常状态，导致节点间通信中断
节点状态不一致：云端的cloudcore将边缘节点识别为已删除状态，而边缘节点仍在尝试连接
资源监控失效：由于网络问题，边缘节点无法正确上报资源使用情况

解决方案

步骤一：检查CNI插件状态

首先验证Cilium的运行状态：

kubectl get pods -n kube-system | grep cilium

步骤二：重置网络组件

卸载现有Cilium安装：

cilium uninstall

重新安装Cilium：

cilium install

步骤三：节点状态修复

删除并重新加入边缘节点：

kubectl delete node edge1
keadm join --cloudcore-ipport="192.168.201.198:10000" --token=<your-token>

验证节点状态：

kubectl get nodes

预防措施

为避免类似问题再次发生，建议：

定期监控CNI状态：设置告警机制监控CNI插件健康状态
版本兼容性检查：确保KubeEdge与CNI插件版本兼容
资源监控：配置完善的资源监控系统，及时发现异常
连接稳定性优化：调整edgecore和cloudcore的连接参数，增强网络容错能力

总结

KubeEdge边缘节点NotReady问题往往由多个因素共同导致，需要系统性地分析日志和组件状态。本案例中，通过重新部署CNI插件解决了问题，但更重要的是建立完善的监控体系，防患于未然。对于生产环境，建议定期检查组件健康状态，并保持各组件版本兼容性。

通过这次问题排查，我们不仅解决了具体的技术问题，也为KubeEdge环境的稳定运行积累了宝贵经验。希望本文能为遇到类似问题的技术人员提供参考和帮助。

kubeedge

项目地址：https://gitcode.com/GitHub_Trending/ku/kubeedge

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

203

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

apinto

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。