Kubeshark Worker容器崩溃问题分析与解决方案

2025-05-20 01:37:44作者：齐冠琰

Kubeshark，为 Kubernetes 带来实时、协议级别的网络流量分析神器！轻松捕获和监控容器、Pod、节点及集群间的每一比特数据流。操作简单，内置直观 Web 界面，让 TCPDump 和 Wireshark 在 Kubernetes 环境中焕发新生。一键安装，立即开启 Kubernetes 内部网络的透明之旅。参与共建，共享开源社区的热情与智慧！

项目地址：https://gitcode.com/gh_mirrors/mi/mizu

问题背景

在Kubeshark项目中，用户报告了Worker组件中的sniffer容器频繁崩溃的问题。该问题表现为容器以错误代码2退出，导致整个Pod崩溃。系统环境为K3s v1.31.2+k3s1运行在Ubuntu 22.04上。

问题现象

从日志中可以观察到大量关于/hostproc/[pid]/exe路径不存在的错误信息。这些错误表明sniffer容器在尝试读取主机进程信息时遇到了问题。然而，经过深入分析后发现，这些错误信息实际上并不是导致容器崩溃的根本原因。

根本原因分析

经过技术团队调查，发现真正的问题根源在于容器的就绪探针(Readiness Probe)和存活探针(Liveness Probe)失败。具体来说，问题出在sniffer启动时进行TCP/UDP连接扫描的初始化过程。

在最新版本的代码中，Worker组件启动时会扫描系统中所有现有的TCP/UDP连接，以便正确解析在Kubeshark启动前就已存在的连接的源/目的信息。这一过程需要扫描所有网络命名空间的连接，并且是在一个被锁定的线程中执行的。

在Kubernetes环境中，系统可能会限制线程的执行，这会显著减慢整个初始化过程，包括就绪探针的响应时间。当探针响应超时，Kubernetes就会认为容器不健康，从而导致容器被终止。

技术细节

问题代码位于Worker组件的初始化部分，具体是在扫描和解析现有网络连接的逻辑中。这一设计虽然能够提供更全面的连接信息，但在某些环境条件下会导致性能问题：

全量扫描所有网络命名空间的连接
线程锁定导致的执行效率下降
Kubernetes环境对线程调度的限制

解决方案

技术团队考虑了多种可能的解决方案：

按需解析TCP连接：改为在需要时才解析连接信息，但这可能会影响sniffer的整体性能。
独立连接扫描容器：设计一个独立的容器专门负责扫描连接信息，并将结果存入共享数据库。
优化现有实现：在保持当前架构的基础上进行性能优化。

最终，团队选择了第三种方案，通过优化现有实现来解决问题。这一方案在保持功能完整性的同时，解决了性能瓶颈问题。

修复版本

该问题已在Kubeshark v52.3.95版本中得到修复。用户升级到该版本后，Worker容器的稳定性问题将得到解决。

经验总结

这个问题给我们提供了几个重要的经验教训：

探针设计需考虑初始化耗时：在容器化应用中，就绪探针和存活探针的设计必须充分考虑初始化过程的耗时特性。
系统级扫描需谨慎：进行全系统范围的扫描操作时，需要考虑其对容器生命周期管理的影响。
环境差异的影响：在不同Kubernetes发行版(如K3s)和不同Linux发行版上，系统行为可能存在差异，需要进行充分测试。

通过这次问题的解决，Kubeshark项目在容器稳定性和性能方面又向前迈进了一步。

kubeshark

项目地址：https://gitcode.com/gh_mirrors/mi/mizu

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Kubeshark Worker容器崩溃问题分析与解决方案

问题背景

问题现象

根本原因分析

技术细节

解决方案

修复版本

经验总结

热门内容推荐

最新内容推荐

项目优选

Kubeshark Worker容器崩溃问题分析与解决方案

问题背景

问题现象

根本原因分析

技术细节

解决方案

修复版本

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选