Crawlee 3.13.0版本发布：浏览器模板与性能优化

2025-06-02 11:14:41作者：幸俭卉

Crawlee是一个强大的Node.js网络爬虫和自动化库，它提供了多种爬取网页的方式，包括无头浏览器和HTTP请求。最新发布的3.13.0版本带来了一些重要的改进和新功能，特别是在浏览器自动化方面有了显著增强。

主要新特性

高级浏览器模板

3.13.0版本引入了一个全新的基于高级技术的爬虫模板。这个模板专门设计用于需要高度模拟真实用户行为的爬取场景，它内置了多种优化机制，能够更好地模拟人类浏览行为，提高爬取成功率。对于需要爬取防护措施严格网站的开发人员来说，这个模板将大幅降低开发难度。

Playwright防护处理助手

新版本为Playwright爬虫添加了handleProtectionChallenge辅助函数。常见的防护机制一直是爬虫开发中的难点，这个助手函数能够自动检测和处理各种防护挑战，包括等待验证和人机检测等。开发者现在可以更轻松地应对这些防护措施，而不需要手动编写复杂的处理逻辑。

重要改进

请求队列优化

本次更新对RequestQueueV2的实现进行了简化，解决了之前版本中存在的一些性能问题。新的实现更加稳定，特别是在处理大规模请求队列时表现更好。这一改进对于需要爬取大量页面的项目尤为重要，能够提高整体爬取效率。

跨平台指标收集增强

3.13.0版本改进了跨平台的指标收集功能。现在系统能够更准确地收集和报告各种性能指标，包括内存使用、CPU负载等，这些数据对于监控和优化爬虫性能非常有价值。改进后的指标收集在不同操作系统上表现更加一致。

HTML实体处理修正

在Cheerio爬虫中修复了一个关于HTML实体解码的问题。现在context.body中的HTML实体将保持原样，不再自动解码。这一变化使得爬取结果更加准确，特别是对于那些需要保留原始HTML结构的场景。

其他优化

改进了日志消息的准确性，特别是在请求队列完成检测方面
移除了旧的Docker CI配置，简化了构建流程
使用了原生的流处理方式，提高了数据处理的效率

总结

Crawlee 3.13.0版本在浏览器自动化、防护措施处理和性能监控方面都有显著提升。新加入的高级模板和防护处理助手为开发者提供了更强大的工具，而底层的性能优化则让整个框架运行更加稳定高效。这些改进使得Crawlee在复杂网页爬取场景下的表现更加出色，是爬虫开发者的有力助手。

crawlee

Crawlee—A web scraping and browser automation library for Node.js that helps you build reliable crawlers. Fast.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

357

217

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息