Crawlee-Python v0.6.8版本发布：请求批处理与机器人协议支持升级

2025-06-10 02:18:15作者：韦蓉瑛

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

Crawlee-Python是一个强大的Python网络爬虫框架，它提供了丰富的功能来简化爬虫开发流程。最新发布的v0.6.8版本带来了一些重要的功能增强和错误修复，进一步提升了框架的稳定性和易用性。

核心功能改进

批量请求处理优化

新版本对add_requests_batched方法进行了重要改进，现在能够更好地处理未成功添加的请求。当批量添加请求时，如果部分请求因各种原因未能成功处理，框架会将这些未处理的请求信息保留下来，而不是简单地忽略或抛出错误。

这一改进对于大规模爬取任务尤为重要，开发者现在可以更精确地掌握哪些请求未能成功添加，并据此采取相应的补救措施。例如，可以记录这些失败的请求，稍后重试，或者分析失败原因以优化爬取策略。

机器人协议支持增强

v0.6.8版本新增了respect_robots_txt_file配置选项，允许开发者更灵活地控制爬虫是否遵守目标网站的robots.txt协议。这一功能对于构建合规的网络爬虫至关重要，特别是在需要尊重网站爬取规则的企业级应用中。

开发者现在可以通过简单的配置开关来决定是否遵循robots.txt规则，而不需要手动实现相关逻辑。这既简化了开发流程，又确保了爬虫行为的合规性。

关键错误修复

会话管理改进

本次版本修复了PlaywrightCrawler中会话cookie保存顺序的问题。原先版本中，会话cookie的保存与请求处理器的执行顺序可能存在不一致，导致某些情况下cookie状态不正确。修复后，框架会确保先保存会话cookie，再执行请求处理器，从而保证cookie状态的准确性。

失败请求处理优化

另一个重要修复涉及会话错误处理。当会话旋转次数超过最大限制时，现在会正确调用failed_request_handler进行处理。这一改进使得开发者能够更全面地捕获和处理各种类型的请求失败情况，包括因会话问题导致的失败。

未处理请求数据结构修正

框架内部使用的UnprocessedRequest数据结构已更新，以匹配实际存储的数据格式。这一底层改进虽然对大多数开发者不可见，但提高了框架内部数据处理的准确性和一致性。

技术实现细节

从技术实现角度看，这些改进反映了Crawlee-Python框架在以下几个方面的持续优化：

错误处理机制：通过完善未处理请求的记录和会话错误处理，框架提供了更全面的错误捕获和处理能力。
合规性支持：新增的robots.txt支持选项体现了框架对网络爬虫合规性的重视。
数据一致性：对内部数据结构和处理顺序的调整，确保了框架在各种场景下的行为一致性。

这些改进使得Crawlee-Python更适合构建稳定、可靠且合规的企业级网络爬虫应用。开发者可以更专注于业务逻辑的实现，而无需过多担心底层细节和边缘情况的处理。

crawlee-python

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

271