Scrapy框架中allowed_domains行为变更对中间件的影响分析

2025-04-30 14:04:20作者：仰钰奇

Scrapy, a fast high-level web crawling & scraping framework for Python.

项目地址：https://gitcode.com/GitHub_Trending/sc/scrapy

Scrapy作为Python生态中最流行的网络爬虫框架之一，在2.11.2版本中对allowed_domains的行为进行了重要变更，这一变更虽然解决了某些安全问题，但也带来了与下载中间件的兼容性问题，特别是那些需要重写URL的中间件。

问题背景

在Scrapy 2.11.2版本之前，allowed_domains的过滤功能是通过蜘蛛中间件(Spider Middleware)实现的。而在新版本中，这一功能被迁移到了下载中间件(Downloader Middleware)层。这一变更虽然提高了安全性，但也带来了一个意想不到的副作用：任何在下载中间件中通过request.replace()方法修改URL的中间件都会导致请求被重新调度，从而再次经过所有中间件处理，包括新的OffsiteMiddleware。

技术细节分析

当使用网络请求转发中间件（特别是那些通过API而非透明转发的解决方案）时，中间件通常需要将原始URL重写为转发服务的端点URL。例如，原本访问example.com的请求可能被重写为forward-service.com/api?url=example.com。按照新版本的逻辑，这个被重写的请求会因为目标域名(forward-service.com)不在allowed_domains列表中而被过滤掉。

影响范围

这一变更主要影响以下几类场景：

使用第三方请求转发API中间件（如ScraperAPI等）
自定义中间件中执行URL重写的逻辑
任何在下载阶段修改请求URL的中间件

解决方案探讨

目前可行的解决方案包括：

回退到旧版行为：通过禁用新的下载中间件并启用旧的蜘蛛中间件来恢复之前的行为。
中间件适配方案：在自定义中间件中设置dont_filter=True，但这会同时禁用重复过滤器。
扩展allowed_domains：将所有可能涉及的转发域名加入allowed_domains列表，但这会破坏封装性并增加维护成本。
框架层面的改进：未来版本可能会引入allow_offsite元数据标志，允许特定请求绕过域名过滤而不影响其他过滤机制。

最佳实践建议

对于当前版本的用户，我们建议：

如果使用第三方请求转发中间件，检查其文档或源代码，确认是否已适配新版本行为。
在自定义中间件中，如果必须修改URL，考虑同时设置适当的过滤标志。
对于关键业务爬虫，可以考虑暂时锁定Scrapy版本至2.11.1，直到有更完善的解决方案。

框架设计思考

这一变更引发了对Scrapy框架设计的深入思考：

版本兼容性：安全修复是否应该考虑对现有生态的影响程度。
过滤机制粒度：是否需要更细粒度的过滤控制，允许单独控制不同类型的过滤。
中间件交互：如何更好地处理中间件链中请求修改和重新调度的边界情况。

Scrapy团队已经意识到这一问题，并计划在后续版本中提供更完善的解决方案，同时也会在文档中加强对这类场景的说明。

Scrapy, a fast high-level web crawling & scraping framework for Python.

项目地址：https://gitcode.com/GitHub_Trending/sc/scrapy

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统