Crawlee-Python v0.6.3 版本发布：新增项目模板与浏览器指纹支持

2025-06-10 17:25:23作者：廉彬冶Miranda

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

Crawlee-Python 是一个强大的 Python 网络爬虫框架，它提供了多种爬虫类型（如 Playwright、Puppeteer 等）的支持，并内置了请求队列、数据存储等实用功能，让开发者能够快速构建高效可靠的爬虫应用。

新增 UV 包管理器项目模板

本次 v0.6.3 版本最显著的改进之一是新增了基于 UV 包管理器的项目模板。UV 是一个新兴的 Python 包管理器，由 Rust 编写，以其极快的速度和现代化的设计理念而闻名。与传统的 pip 或 Poetry 相比，UV 在依赖解析和包安装方面有着显著的性能优势。

开发者现在可以通过 Crawlee 提供的模板快速创建一个使用 UV 作为包管理器的爬虫项目，这将大幅提升依赖安装和项目初始化的速度，特别是在需要频繁创建新项目的场景下。

PlaywrightCrawler 默认启用浏览器指纹生成

另一个重要更新是 PlaywrightCrawler 现在默认启用了浏览器指纹生成功能。浏览器指纹是一种网站用来识别和追踪用户的技术，通过收集浏览器特征（如用户代理、屏幕分辨率、安装的字体等）来创建唯一标识符。

在爬虫场景中，使用随机生成的浏览器指纹可以：

降低被网站识别为爬虫的风险
避免因频繁请求而被限制访问
模拟更真实的用户行为

这一改进使得 PlaywrightCrawler 在默认配置下就具备了更好的反检测能力，开发者无需额外配置即可获得更高的爬取成功率。

项目模板兼容性优化

针对 Python 生态中流行的 Poetry 包管理器，本次更新还优化了项目模板，确保其完全兼容 Poetry 2.x 版本。Poetry 2.x 带来了多项改进和新特性，如更快的依赖解析、更好的错误信息等。通过这次更新，使用 Poetry 2.x 的开发者可以无缝地创建和运行 Crawlee 项目。

非无头模式下的临时文件夹清理

对于使用 PlaywrightCrawler 在非无头模式（即可见浏览器窗口）下运行的场景，本次更新修复了一个临时文件夹清理的问题。现在，当爬虫任务完成后，系统会自动清理这些临时文件夹，避免占用不必要的磁盘空间。这一改进对于长期运行的爬虫任务尤为重要，可以有效防止磁盘空间被逐渐耗尽。

总结

Crawlee-Python v0.6.3 版本虽然是一个小版本更新，但带来了多项实用改进。新增的 UV 包管理器模板为开发者提供了更多选择，默认启用的浏览器指纹功能提升了爬虫的防检测能力，而对 Poetry 2.x 的支持和临时文件夹清理则改善了开发体验和系统稳定性。这些改进共同使得 Crawlee-Python 成为一个更加强大和易用的网络爬虫框架。

crawlee-python

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee-python

登录后查看全文