Crawlee-Python 中处理链式请求的技术解析

2025-06-07 15:30:54作者：曹令琨Iris

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在网页抓取过程中，经常会遇到需要按顺序执行多个请求才能获取目标数据的情况，特别是在使用 ASP.Net 开发的网站中。本文将深入探讨如何使用 Crawlee-Python 框架高效处理这类链式请求场景。

链式请求的典型场景

许多现代网站，特别是基于 ASP.Net 开发的应用程序，会采用多步骤请求机制来获取完整数据。常见场景包括：

先发送一个初始化请求获取会话令牌
使用该令牌发起第二个请求获取数据标识符
最后使用标识符获取实际的目标数据

这种设计模式增加了网页抓取的复杂度，因为每个请求都依赖于前一个请求的结果。

Crawlee 的解决方案

Crawlee 提供了优雅的解决方案来处理这种链式请求。核心方法是使用 send_request 辅助函数，它允许在当前页面上下文中发起额外的 HTTP 请求。

基本实现方式

在请求处理器中，可以直接调用 send_request 方法发起后续请求：

@crawler.router.default_handler
async def handler(context: BeautifulSoupCrawlingContext) -> None:
    # 发起第一个后续请求
    response1 = await context.send_request(url="/api/init", method="post")
    
    # 处理第一个响应
    token = json.loads(response1.read())['token']
    
    # 使用第一个响应的结果发起第二个请求
    response2 = await context.send_request(
        url=f"/api/data?token={token}",
        method="get"
    )
    
    # 处理最终数据
    final_data = json.loads(response2.read())

上下文类型的选择

Crawlee 提供了多种上下文类型，都可以使用 send_request 方法：

BeautifulSoupCrawlingContext：适用于 HTML 解析场景
BasicCrawlingContext：基础上下文，同样支持链式请求

开发者可以根据实际需求选择合适的上下文类型。值得注意的是，send_request 返回的是新请求的响应对象，与原始请求的响应（可通过 context.http_response 访问）是分开的。

最佳实践建议

错误处理：为每个链式请求添加适当的错误处理，确保某个请求失败时能够优雅降级或重试
请求间隔：在密集的链式请求之间添加适当延迟，避免触发反爬机制
会话保持：Crawlee 会自动维护会话状态，确保相关 cookies 在链式请求中保持
结果缓存：对于频繁使用的中间结果，考虑使用 Crawlee 的缓存机制提高效率

总结

Crawlee-Python 通过 send_request 方法提供了处理链式请求的简洁方案，使开发者能够轻松应对复杂的多步骤数据获取场景。无论是简单的两步验证，还是复杂的多步数据获取流程，都可以通过这种方法高效实现。理解这一机制将大大提升开发者处理现代网站抓取任务的能力。

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。