Crawlee-Python 中传递上下文数据的两种方法

2025-06-06 12:26:39作者：郁楠烈Hubert

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在 Python 爬虫开发中，经常需要在不同处理函数之间共享一些全局数据或运行状态。Crawlee-Python 项目提供了两种有效的方式来传递这类上下文数据，本文将详细介绍这两种方法的使用场景和实现方式。

使用 Request.user_data 传递请求相关数据

Request.user_data 是一个字典类型的属性，专门用于存储与特定请求相关的自定义数据。这种方式非常适合以下场景：

需要为每个请求附加特定的元数据
数据与请求生命周期紧密相关
需要在请求重试时保留的数据

使用方法非常简单，在创建请求时直接设置 user_data：

request = Request(
    url="https://example.com",
    user_data={"priority": "high", "category": "news"}
)

在处理函数中可以通过 context 对象访问这些数据：

async def handler(context):
    priority = context.request.user_data.get("priority")
    # 处理逻辑...

使用 context.use_state 共享全局状态

对于需要在整个爬虫运行期间共享的数据，可以使用 context.use_state 方法。这种方法更适合：

全局配置信息
共享的资源连接（如数据库连接池）
运行时的统计信息

使用方法如下：

async def handler(context):
    # 获取或初始化状态
    state = await context.use_state()
    
    # 更新状态
    if "visit_count" not in state:
        state["visit_count"] = 0
    state["visit_count"] += 1
    
    # 使用状态数据
    print(f"总访问次数: {state['visit_count']}")

use_state 返回的是一个持久化的字典，数据会在爬虫的不同请求之间保持，非常适合用来做全局状态管理。

两种方法的对比与选择

数据范围：
- user_data 是请求级别的，每个请求独立
- use_state 是爬虫实例级别的，所有请求共享
数据生命周期：
- user_data 随请求创建而创建，随请求结束而结束
- use_state 在整个爬虫运行期间都存在
典型应用场景：
- 使用 user_data 存储：请求优先级、页面类型、采集深度等
- 使用 use_state 存储：全局计数器、共享资源、运行配置等