Crawlee-Python项目中的请求间数据传递机制解析

2025-06-07 20:38:12作者：柯茵沙

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在Python爬虫开发中，经常需要在不同请求处理程序之间传递数据。本文将以Crawlee-Python项目为例，深入探讨其请求间数据传递的实现方式和使用技巧。

基本数据传递方法

Crawlee-Python提供了user_data参数来实现请求间的数据传递。开发人员可以在enqueue_links或add_requests方法中设置user_data参数，将数据附加到新创建的请求上。

await context.enqueue_links(
    selector=".program_table .name a",
    user_data={"extracted_data": some_value},
    label="detail"
)

在后续的请求处理程序中，可以通过context.request.user_data访问这些数据：

data = context.request.user_data["extracted_data"]

高级请求创建方式

除了使用enqueue_links批量创建请求外，Crawlee-Python还提供了更灵活的add_requests方法，允许开发者精确控制每个请求的创建过程：

requests = []
for item in soup.select(".item"):
    time = datetime.fromisoformat(item.select_one(".time").text)
    link = item.select_one(".link")
    requests.append(Request.from_url(
        link,
        user_data={"time": time},
        label="detail"
    ))
await context.add_requests(requests)

这种方式特别适合需要为每个请求附加不同数据的场景。

数据序列化限制与解决方案

由于Crawlee-Python的架构设计需要支持大规模爬取和断点续爬，所有通过user_data传递的数据必须是JSON可序列化的。这意味着开发者不能直接传递Python特有的复杂对象，如datetime、set或decimal等。

对于需要传递复杂数据类型的场景，可以采用以下解决方案：

手动序列化/反序列化：将复杂类型转换为基本类型后再传递，在接收端再转换回来。
使用Pydantic模型：借助Pydantic的强大序列化能力，可以优雅地处理复杂数据类型：

from pydantic import BaseModel

class ScreeningData(BaseModel):
    starts_at: datetime
    ends_at: datetime

# 发送端
data = ScreeningData(starts_at=datetime.now(), ends_at=datetime.now())
await context.enqueue_links(
    user_data={"screening": data.model_dump_json()},
    label="detail"
)

# 接收端
data = ScreeningData.model_validate_json(context.request.user_data["screening"])