Crawlee-Python项目中的Playwright爬虫严格模式问题解析

2025-06-07 22:30:07作者：苗圣禹Peter

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

在Crawlee-Python项目中，开发者使用Playwright进行网页爬取时可能会遇到一个常见但容易被忽视的问题——Playwright的严格模式(strict mode)导致的爬虫异常行为。本文将深入分析这一问题及其解决方案。

问题现象

开发者在爬取德国二手交易网站时，发现爬虫没有按预期在5次请求后停止，而是进入了看似无限循环的状态。具体表现为：

爬虫不断重复处理相同的URL
请求计数器没有按预期工作
日志显示爬虫持续运行但无法完成

根本原因分析

经过深入排查，发现问题并非出在Crawlee框架本身，而是与Playwright的严格模式特性有关。当使用Playwright的locator方法时，如果选择器匹配到多个元素，Playwright默认会抛出异常，这就是所谓的"严格模式"。

在示例代码中，以下选择器导致了问题：

created = await context.page.locator('#viewad-extra-info span').text_content()

这个选择器实际上匹配到了两个元素：

日期元素 <span>19.08.2024</span>
浏览次数元素 <span id="viewad-cntr-num">7148</span>

解决方案

针对这类问题，开发者可以采取以下几种解决方案：

1. 使用更精确的选择器

最直接的解决方案是改进选择器，使其只匹配目标元素。例如：

# 使用更具体的ID选择器
created = await context.page.locator('#viewad-extra-info > span').text_content()

2. 使用索引定位特定元素

如果需要从多个匹配项中选择特定元素，可以使用nth()方法：

# 选择第一个匹配的元素
created = await context.page.locator('#viewad-extra-info span').nth(0).text_content()

3. 关闭严格模式

虽然不推荐，但在某些情况下可以临时关闭严格模式：

# 设置strict=False
created = await context.page.locator('#viewad-extra-info span', strict=False).first.text_content()

最佳实践建议

选择器设计原则：尽量使用唯一ID或特定类名作为选择器，避免过于宽泛的选择器。
错误处理：为关键操作添加try-catch块，优雅地处理可能出现的异常。
日志记录：在爬虫中添加详细的日志记录，帮助快速定位问题。
渐进式开发：先测试单个页面的爬取逻辑，确认无误后再扩展到整个爬虫。
元素验证：在使用元素前，先验证其是否存在和是否唯一。

总结

在Crawlee-Python项目中结合Playwright进行开发时，理解Playwright的严格模式机制至关重要。通过合理设计选择器、添加适当的错误处理和验证逻辑，可以有效避免这类问题，构建出更健壮的爬虫应用。记住，大多数看似框架问题的异常行为，往往源于对底层工具特性的理解不足。

crawlee-python

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.25 K

677