Twitter Zipkin项目Docker容器中wget僵尸进程问题分析与解决

2025-05-13 21:37:46作者：蔡怀权

问题背景

在Twitter开源的分布式追踪系统Zipkin的Docker容器运行过程中，开发人员发现了一个关于wget进程的有趣现象。当容器长时间运行时，系统中会出现大量处于"defunct"状态的wget僵尸进程。这些进程无法正常终止，逐渐积累并占用系统资源。

问题分析

通过深入调查，我们发现这些wget进程源自Docker容器的健康检查机制。Zipkin容器使用了一个shell脚本进行健康检查，其中通过wget命令向本地/health端点发送请求来验证服务状态。

问题的核心在于：

健康检查间隔设置较短（测试环境为1秒，生产环境为5秒）
wget命令执行可能超时
当健康检查进程被终止时，未能正确清理其子进程(wget)

在Linux系统中，当一个进程终止但其子进程仍在运行时，这些子进程就会变成"僵尸进程"。它们虽然不再执行代码，但仍保留在进程表中，等待父进程读取其退出状态。

解决方案

项目维护者提出了两个层级的解决方案：

1. 立即解决方案（已实现）

调整wget命令的超时参数，确保在合理时间内完成或失败
在2.27.0版本中已经包含这一修复

2. 长期优化方案（讨论中）

考虑将shell脚本实现的健康检查替换为Go语言编写的独立二进制程序
这种方案能更可靠地管理进程生命周期，避免僵尸进程问题
需要将健康检查二进制程序添加到基础镜像中

验证结果

在实际生产环境中部署修复后的2.27.0版本后，经过多日观察：

原先频繁出现的wget僵尸进程完全消失
系统资源使用更加稳定
健康检查机制仍保持原有功能

技术启示

这个案例为我们提供了几个重要的技术经验：

容器健康检查设计：在设计容器健康检查时，不仅要考虑检查逻辑本身，还需要注意命令执行可能带来的副作用。
进程生命周期管理：在编写会产生子进程的脚本时，必须考虑信号传播和进程清理机制。
超时设置合理性：网络请求类操作必须设置合理的超时参数，既要保证及时发现问题，又要避免因短暂波动导致的误判。
监控与告警：对于长时间运行的容器，需要建立对僵尸进程的监控机制，及时发现类似问题。

这个问题的解决过程展示了开源社区如何协作分析问题、提出解决方案并验证效果，最终提升了Zipkin项目的稳定性和可靠性。

zipkin

Zipkin is a distributed tracing system

项目地址：https://gitcode.com/gh_mirrors/zip/zipkin

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。

rainbond

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理