Crawlee-Python项目中实现通用HTTP拦截器的技术方案

2025-06-06 10:32:01作者：邬祺芯Juliet

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在Crawlee-Python项目中，测试环节存在两种不同的爬虫类型：静态爬虫和基于浏览器的爬虫。目前这两种爬虫的HTTP请求模拟采用了不同的技术方案，这不仅增加了测试的复杂性，也影响了测试效率和稳定性。本文将深入探讨如何设计一个统一的HTTP拦截器解决方案。

现状分析

当前测试环境中存在以下技术实现差异：

静态爬虫测试：使用respx库来模拟HTTP流量
浏览器爬虫测试：主要使用真实网络请求

这种分离的实现方式带来了几个明显问题：

测试代码重复度高
测试执行速度较慢（特别是需要真实网络请求时）
测试结果容易受到网络环境影响
维护成本增加

技术解决方案

核心设计思想

我们需要构建一个能够同时处理两种爬虫类型的HTTP请求拦截层，其核心功能应包括：

统一拦截所有HTTP请求
根据测试需求返回预设响应
保持与真实请求相似的行为特征

浏览器爬虫的拦截实现

对于基于Playwright的浏览器爬虫，可以通过自定义BrowserPool来实现请求拦截。关键实现代码如下：

class _StaticRedirectBrowserPool(BrowserPool):
    """用于将浏览器请求重定向到静态内容的BrowserPool实现"""
    
    async def new_page(
        self,
        *,
        page_id: str | None = None,
        browser_plugin: BaseBrowserPlugin | None = None,
        proxy_info: ProxyInfo | None = None,
    ) -> CrawleePage:
        crawlee_page = await super().new_page(
            page_id=page_id, 
            browser_plugin=browser_plugin, 
            proxy_info=proxy_info
        )
        await crawlee_page.page.route(
            '**/*',
            lambda route: route.fulfill(
                status=200, 
                content_type='text/plain', 
                body='<!DOCTYPE html><html><body>What a body!</body></html>'
            ),
        )
        return crawlee_page