Crawlee-Python项目中PlaywrightCrawler的链接提取策略问题解析

2025-06-06 06:10:31作者：韦蓉瑛

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在Python爬虫开发领域，Crawlee-Python作为一个新兴的爬虫框架，提供了基于Playwright的高级爬取能力。近期开发者在使用PlaywrightCrawler时发现了一个值得注意的技术问题：extract_links方法未能正确遵循same-origin策略。

问题本质

该问题的核心在于框架内部对链接处理流程的拆分重构。原本的enqueue_links方法被拆分为两个独立方法：

extract_links - 负责从页面提取所有链接
add_requests - 负责将链接加入队列

然而在这次拆分过程中，策略过滤的逻辑被错误地全部放在了add_requests方法中，导致extract_links方法完全忽略了传入的strategy参数。这意味着即使开发者指定了same-origin策略，在链接提取阶段仍然会获取到所有外部链接。

技术影响

这种设计缺陷会导致几个实际问题：

内存浪费：提取了大量最终不会被处理的链接
安全隐患：可能意外暴露爬虫对第三方网站的访问意图
性能损耗：不必要的链接解析和处理开销

解决方案分析

正确的实现方式应该是在链接提取阶段就应用策略过滤。技术实现上可以考虑两种方案：

前端过滤：在extract_links阶段直接应用策略，只返回符合策略的链接
双阶段验证：在提取阶段做初步过滤，在加入队列时做二次验证

第一种方案更为高效，能最大程度减少不必要的对象创建和处理开销。这也是大多数成熟爬虫框架采用的方案。

最佳实践建议

在等待官方修复的同时，开发者可以采取以下临时解决方案：

# 手动实现同源策略过滤
from urllib.parse import urlparse

def is_same_origin(base_url, target_url):
    base = urlparse(base_url)
    target = urlparse(target_url)
    return base.netloc == target.netloc

new_requests = await context.extract_links()
filtered_requests = [req for req in new_requests 
                    if is_same_origin(context.request.url, req.url)]
await context.add_requests(filtered_requests)