首页
/ Scrapling v0.2.99版本发布:全新文档与核心功能升级

Scrapling v0.2.99版本发布:全新文档与核心功能升级

2025-06-11 08:03:12作者:管翌锬

Scrapling是一个强大的Python网页抓取框架,它通过提供多种请求处理器(fetcher)来简化网页抓取流程。最新发布的v0.2.99版本带来了多项重要更新,包括全新文档网站、统一的导入逻辑以及多项功能增强,这些改进将显著提升开发者的使用体验。

全新文档网站上线

经过长期准备,Scrapling终于拥有了完整的官方文档网站。这个文档网站详细介绍了框架的各个功能模块,包括安装指南、使用教程、API参考等。对于新用户来说,这是了解Scrapling的最佳起点;对于老用户,文档中包含了所有新特性的详细说明,帮助开发者快速掌握最新功能。

统一的fetcher导入方式

新版本对fetcher的导入方式进行了重大改进。现在开发者可以使用更简洁的导入语句:

from scrapling.fetchers import Fetcher, AsyncFetcher, StealthyFetcher, PlayWrightFetcher

导入后,fetcher可以直接使用,无需实例化。例如:

page = Fetcher.get(...)

这种新的导入方式替代了原先的from scrapling.defaults import...语法,使代码更加简洁直观。为了保持向后兼容,旧语法仍然可用,但会显示警告提示开发者迁移到新语法。

自动匹配功能默认关闭

v0.2.99版本对自动匹配(automatch)功能的行为进行了调整。现在,automatch默认处于关闭状态,开发者需要显式启用它。这一变化使得框架的行为更加明确,减少了因自动匹配导致的意外行为。

开发者可以通过fetcher或解析选项来配置automatch行为。例如,在创建fetcher时明确指定是否启用自动匹配功能。这种显式配置方式使代码意图更加清晰,便于维护。

fetcher功能增强

新版本为StealthyFetcher和PlayWrightFetcher增加了wait参数。这个参数允许开发者在关闭页面并返回响应前,让fetcher等待指定的毫秒数。这对于需要等待JavaScript执行或页面完全加载的场景特别有用。

此外,StealthyFetcher的fetchasync_fetch方法新增了additional_arguments参数,用于向Camoufox传递额外的设置参数。这些参数将覆盖Scrapling的默认设置,为开发者提供更精细的控制能力。

异步抓取功能修复

v0.2.99修复了StealthyFetcher和PlayWrightFetcher中async_fetch方法在处理重定向时的bug。这一修复确保了异步抓取功能的可靠性,特别是在处理复杂重定向场景时的稳定性。

升级建议

v0.2.99是一个重要的功能更新版本,建议所有用户尽快升级以获取最佳体验。升级后,开发者应该:

  1. 更新导入语句,使用新的fetcher导入方式
  2. 检查项目中是否依赖automatch功能,必要时显式启用它
  3. 利用新的wait参数优化抓取流程
  4. 在需要精细控制时,使用additional_arguments参数

这些改进使Scrapling更加稳定、易用,为开发者提供了更强大的网页抓取能力。无论是新手还是经验丰富的开发者,都能从这些改进中受益。

登录后查看全文
热门项目推荐
相关项目推荐