Scrapy 2.12.0版本中LinkExtractor对Flutter网站链接提取的变更分析

2025-04-30 18:35:21作者：农烁颖Land

Scrapy作为Python生态中最流行的网络爬虫框架之一，其2.12.0版本对LinkExtractor组件进行了重要更新，特别是在处理JavaScript文件链接方面。这一变更直接影响了对Flutter等现代Web框架构建的网站爬取效果。

变更背景

在Scrapy 2.12.0版本中，开发团队对LinkExtractor的默认行为进行了调整，将.js扩展名的文件排除在默认提取范围之外。这一变更基于对大多数爬虫使用场景的观察——通常情况下，爬虫开发者更关注HTML文档和资源文件，而非JavaScript脚本。

技术细节解析

LinkExtractor是Scrapy框架中用于从网页内容中提取链接的核心组件。在2.12.0版本中，其内部实现新增了对JavaScript文件的过滤机制：

默认情况下，deny_extensions参数现在包含.js扩展名
这一变更影响了所有使用默认参数的LinkExtractor实例
对于Flutter网站，由于其大量依赖JavaScript文件实现功能，这一变更尤为明显

对Flutter网站的影响

Flutter框架构建的Web应用具有以下特点：

大量使用JavaScript实现核心功能
依赖多个.js文件实现应用逻辑
使用manifest.json作为应用清单文件

在2.11.0版本中，LinkExtractor会提取所有这些资源链接；而在2.12.0中，默认只提取manifest.json等非JavaScript资源。

解决方案与最佳实践

针对这一变更，开发者可以采取以下解决方案：

显式设置deny_extensions参数，移除.js过滤：

LinkExtractor(deny_extensions=[], tags=["a", "link", "script"], attrs=["href", "src"])

对于特定项目需求，可以自定义扩展名过滤列表
在升级Scrapy版本时，应当测试链接提取逻辑是否受到影响

版本兼容性建议

对于依赖旧版行为的项目：

可以暂时锁定Scrapy版本为2.11.0
或者修改现有代码适配新版本行为
建议在测试环境中充分验证爬取效果

这一变更体现了Scrapy团队对框架默认行为的持续优化，虽然短期内可能影响部分项目，但从长期来看，这一调整更符合大多数爬虫使用场景的实际需求。开发者应当了解这一变更并根据项目需求进行相应调整。

scrapy

Scrapy, a fast high-level web crawling & scraping framework for Python.

项目地址：https://gitcode.com/GitHub_Trending/sc/scrapy

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

990