深入分析Crawlee Python项目中API调用阻塞爬虫的问题

2025-06-06 02:13:04作者：邵娇湘

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在Crawlee Python项目中，开发团队发现了一个影响爬虫性能的关键问题：当使用BasicCrawler时，fetch_next_request方法在某些情况下会出现长时间阻塞，导致整个爬虫进程停滞数十秒甚至更长时间。

问题现象

在正常情况下，fetch_next_request方法应该在毫秒级别完成请求获取。然而，在实际运行中，开发团队观察到该方法有时会异常地长时间挂起。通过注入时间戳记录，可以清晰地看到两种截然不同的执行情况：

正常情况下的请求处理流程快速顺畅
异常情况下fetch_next_request方法长时间等待

这种阻塞现象并非每次都会发生，但也不是极其罕见的偶发事件，经过多次尝试后可以稳定复现。

问题根源

经过深入分析，开发团队锁定了问题的根本原因：

Apify客户端默认设置了360秒的超时时间，这个值对于大多数爬虫场景来说过于保守
当API请求遇到504 Gateway Timeout错误时，客户端会按照这个超时设置长时间等待
在此期间，整个爬虫进程被阻塞，无法继续处理其他请求或正常停止

解决方案

针对这个问题，开发团队采取了以下改进措施：

显著降低了Apify客户端的默认超时时间
保留了指数退避重试机制，确保在网络不稳定时仍能可靠工作
添加了专门的测试用例来验证这一改进的有效性

技术考量

在确定最终解决方案时，开发团队权衡了两种可能的情况：

降低超时时间可以减少无效等待，提高爬虫效率
但同时也略微增加了重复请求的可能性

经过分析，大多数API调用都是幂等的，且Apify客户端会自动添加幂等性密钥，因此第二种情况的风险实际上很低。而第一种情况带来的性能提升则非常显著。

验证结果

改进后的版本在实际运行环境中进行了充分测试：

在原先会出现问题的相同爬虫任务上运行了10次
所有运行均未再出现长时间阻塞的问题
爬虫的整体性能和稳定性得到了明显提升

这一改进不仅解决了特定的阻塞问题，还提升了整个Crawlee Python项目在处理高并发请求时的可靠性和效率。

crawlee-python

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

146

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java