Crawlee-Python 中 PlaywrightCrawler 实现图片资源拦截的技术方案

2025-06-07 00:07:34作者：尤辰城Agatha

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在 Python 爬虫开发中，使用 Playwright 进行网页抓取时，经常会遇到需要拦截图片资源请求的场景。本文将以 Crawlee-Python 项目为例，详细介绍几种实现图片拦截的技术方案及其优缺点。

方案一：自定义浏览器控制器

通过继承 PlaywrightBrowserController 类并重写 new_page 方法，可以在创建新页面时自动添加路由规则拦截图片请求。这种方案的核心是创建一个自定义的浏览器控制器 ImageBlockerPlaywrightBrowserController，在其 new_page 方法中设置路由规则。

该方案的优势在于：

拦截逻辑集中管理，便于维护
所有新建页面都会自动应用拦截规则
适合需要全局拦截的场景

方案二：使用预导航钩子

Crawlee 提供了 pre_navigation_hook 装饰器，可以在页面导航前执行自定义逻辑。这种方法更加轻量级，适合临时性的拦截需求。

该方案的特点是：

实现简单，只需几行代码
可以针对特定爬虫实例进行配置
灵活性高，可根据不同页面动态调整拦截规则

方案三：直接使用 Playwright 原生 API

Playwright 本身提供了强大的路由控制功能，可以直接在页面操作中使用 route 方法拦截特定类型的请求。这种方法最为基础，但需要开发者自行处理异常和边界情况。

技术实现细节

无论采用哪种方案，核心拦截逻辑都基于 Playwright 的路由机制。典型的图片拦截实现如下：

async def block_images(route, request):
    if request.resource_type == 'image':
        await route.abort()
    else:
        await route.continue_()

需要注意的是：