Scrapy Splash 使用教程

2026-01-17 08:17:26作者：邵娇湘

项目介绍

Scrapy Splash 是一个为 Scrapy 框架设计的轻量级浏览器，由 Zyte（前身为 Scrapinghub）开发。它通过 HTTP API 提供服务，特别适用于需要渲染 JavaScript 或 AJAX 调用的网页抓取任务。尽管它有些过时，但它是专门为网页抓取设计的无头浏览器，并已被众多开发者广泛测试和使用。

项目快速启动

安装 Scrapy Splash

首先，确保你已经安装了 Docker，然后运行以下命令来安装和启动 Scrapy Splash：

docker pull scrapinghub/splash
docker run -p 8050:8050 scrapinghub/splash

配置 Scrapy 项目

在你的 Scrapy 项目中，安装 scrapy-splash 库：

pip install scrapy-splash

在 settings.py 文件中添加以下配置：

SPLASH_URL = 'http://localhost:8050'

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

编写抓取代码

在你的 Spider 文件中，使用 SplashRequest 来发送请求：

import scrapy
from scrapy_splash import SplashRequest

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url, self.parse, args={'wait': 0.5})

    def parse(self, response):
        # 解析网页内容
        pass

应用案例和最佳实践

案例一：抓取动态加载内容

许多现代网站使用 JavaScript 动态加载内容。使用 Scrapy Splash 可以轻松抓取这些内容。例如，抓取一个使用 AJAX 加载新闻的网站：

def parse(self, response):
    for news in response.css('div.news-item'):
        yield {
            'title': news.css('h2::text').get(),
            'content': news.css('p::text').get(),
        }