Crawlee-Python v0.5.4版本发布：浏览器隐私模式支持与关键修复

2025-06-10 06:04:13作者：房伟宁

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

Crawlee是一个强大的Python网络爬虫框架，它提供了构建高效、可靠爬虫所需的各种工具和功能。作为Apify生态系统的一部分，Crawlee-Python让开发者能够轻松处理复杂的网页抓取任务，包括动态内容渲染、会话管理和分布式爬取等。

新增功能：PlaywrightCrawler支持隐私模式

本次v0.5.4版本最值得关注的新特性是为PlaywrightCrawler添加了use_incognito_pages选项的支持。这个功能允许开发者在浏览器启动选项中启用隐私模式，为每个页面创建独立的上下文环境。

隐私模式在爬虫开发中非常有用，特别是在以下场景：

需要隔离不同请求之间的cookie和本地存储
避免网站通过浏览器特征识别爬虫行为
测试网站在全新环境下的表现
防止不同会话间的数据污染

开发者现在可以通过简单的配置启用这一功能：

launch_options = {
    'use_incognito_pages': True
}

关键错误修复

会话管理改进

本次版本修复了会话管理中的退休(retire)机制问题。在爬虫开发中，会话管理至关重要，它允许爬虫维护状态信息（如cookies）并在检测到封禁时自动切换会话。修复后的退休机制能更可靠地处理会话生命周期，确保爬虫在面对反爬措施时更加健壮。

链接处理优化

enqueue_links方法在处理重定向响应中的相对链接时存在缺陷，可能导致生成的绝对链接不正确。这个版本修复了这一问题，确保即使在页面发生重定向的情况下，也能正确地将相对链接转换为绝对链接。

CurlImpersonateHttpClient的Cookie处理

对于使用CurlImpersonateHttpClient的开发者，本次更新修复了cookie处理机制的问题。CurlImpersonate是一个能够模拟真实浏览器TLS指纹的工具，修复后的cookie处理使其行为更加接近真实浏览器，提高了爬虫的稳定性和成功率。

模板更新

虽然不直接影响核心功能，但本次发布还更新了项目模板，包括修复了poetry-plugin-export的版本问题和camoufox模板名称错误。这些改进使得基于模板创建新项目更加顺畅。

总结

Crawlee-Python v0.5.4版本虽然在功能上没有重大变革，但通过新增隐私模式支持和多项关键修复，进一步提升了框架的稳定性和实用性。对于需要处理复杂网站、特别是那些有严格反爬措施的开发者来说，这些改进尤为重要。

隐私模式的加入为爬虫提供了更好的隔离环境，而会话管理和链接处理的改进则直接提升了爬虫的可靠性。这些变化使得Crawlee-Python在构建生产级爬虫解决方案时更具竞争力。

crawlee-python

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271