Crawlee-Python项目中PlaywrightCrawler僵尸进程问题解析

2025-06-06 19:06:44作者：毕习沙Eudora

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在Crawlee-Python项目中使用PlaywrightCrawler时，开发者可能会遇到一个棘手的问题：当以headless模式运行爬虫时，系统会逐渐积累大量僵尸进程(headless_shell)，导致内存使用量持续增长。这个问题在批量处理任务时尤为明显。

问题现象

当开发者使用PlaywrightCrawler进行批量网页抓取时，每次批处理完成后，系统会残留25-50个僵尸进程。这些进程状态显示为"defunct"，通过ps命令可以观察到大量CMD为<headless_shell>的僵尸进程。随着批处理次数的增加，僵尸进程数量会累积增长，最终导致系统可用内存逐渐减少。

根本原因

这个问题源于Linux系统中进程管理的特殊性。在容器化环境中，当父进程退出而其子进程仍在运行时，这些子进程会被重新挂载到PID 1(init进程)下。标准的init系统会负责清理这些孤儿进程，但如果没有正确的init系统，这些进程就会变成僵尸进程长期存在。

Playwright启动的浏览器实例(headless_shell)就是这样的子进程。当爬虫任务完成后，如果父进程没有正确回收这些子进程，它们就会变成僵尸状态。

解决方案

解决这个问题的关键在于确保容器中有正确的init系统来处理进程回收。具体方法是在启动Docker容器时添加--init参数：

docker run --init [其他参数] 镜像名称

这个参数会让Docker使用一个轻量级的init系统(tini)作为容器的PID 1进程，它会负责回收孤儿进程，防止僵尸进程的积累。

技术原理

在Linux系统中，僵尸进程是已经终止执行但仍在进程表中留有记录的进程。它们会占用系统资源，直到父进程读取它们的退出状态。正常情况下，父进程应该调用wait()系统调用来回收子进程。

在容器环境中，如果没有专门的init系统：

当主进程(PID 1)退出时，其子进程会被重新挂载到PID 1
默认的PID 1进程不具备完整的init系统功能
这些子进程退出后变成僵尸进程，无法被回收

--init参数引入的tini进程会：

作为容器的主进程(PID 1)运行
正确处理SIGTERM和SIGCHLD信号
回收所有孤儿进程，防止僵尸进程积累

最佳实践

对于使用Crawlee-Python进行网页抓取的开发者，建议：

在Docker环境中始终使用--init参数
监控容器中的进程数量，特别是headless_shell进程
定期检查系统内存使用情况
考虑在长时间运行的爬虫任务中加入定期重启机制

通过遵循这些实践，可以确保爬虫任务稳定运行，避免因僵尸进程积累导致的资源耗尽问题。

crawlee-python

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Crawlee-Python项目中PlaywrightCrawler僵尸进程问题解析

问题现象

根本原因

解决方案

技术原理

最佳实践

热门内容推荐

最新内容推荐

项目优选

Crawlee-Python项目中PlaywrightCrawler僵尸进程问题解析

问题现象

根本原因

解决方案

技术原理

最佳实践

相关内容推荐

热门内容推荐

最新内容推荐

项目优选