Apify CLI 实战：如何将 Scrapy 项目迁移至 Apify 平台

2025-06-24 17:31:20作者：鲍丁臣Ursa

前言

对于 Python 开发者而言，Scrapy 是构建网络爬虫的首选框架之一。而 Apify 平台则提供了强大的爬虫执行环境和部署能力。本文将详细介绍如何通过 Apify CLI 工具将现有的 Scrapy 项目无缝迁移至 Apify 平台，使其成为功能完备的 Apify Actor。

准备工作

安装 Apify CLI

在开始之前，需要确保已安装 Apify CLI 工具。提供两种安装方式：

使用 Homebrew 安装（推荐 macOS 用户）：

brew install apify-cli

使用 NPM 安装：

npm i -g apify-cli

安装完成后，可以通过运行 apify -v 验证安装是否成功。

Scrapy 项目转换实战

项目结构检查

确保你的 Scrapy 项目结构完整，典型的项目目录应包含：

your_scraper/
├── scrapy.cfg
├── your_scraper/
│   ├── __init__.py
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders/
│       ├── __init__.py
│       └── your_spider.py

初始化 Apify 项目

在项目根目录（包含 scrapy.cfg 的目录）执行：

apify init

CLI 工具会引导你完成以下配置：

输入 Scrapy 的 BOT_NAME（可在 settings.py 中找到）
指定蜘蛛模块所在目录（SPIDER_MODULES 设置）
选择要包装的具体蜘蛛

成功后会看到类似输出：

Success: The Scrapy project has been wrapped successfully.

本地运行与测试

创建虚拟环境

python -m virtualenv .venv
source .venv/bin/activate

安装依赖

pip install -r requirements-apify.txt -r requirements.txt

执行爬虫

apify run

运行结果默认存储在 storage/datasets/default/ 目录中。

部署到 Apify 平台

登录账户

apify login

系统会提示输入 API Token。

部署项目

apify push

部署完成后，可以在 Apify 控制台的"我的 Actors"中查看和管理。

技术实现解析

核心组件替换

Apify CLI 在包装过程中会替换 Scrapy 的以下核心组件：

调度器(Scheduler)：
- 原版：Scrapy 默认调度器
- 替换为：ApifyScheduler
- 功能：与 Apify 请求队列集成
数据处理管道(Pipeline)：
- 新增：ActorDatasetPushPipeline
- 作用：将抓取结果自动推送至 Apify 数据集
重试中间件(RetryMiddleware)：
- 原版：Scrapy 默认重试中间件
- 替换为：ApifyRetryMiddleware
- 改进：与 Apify 请求队列深度集成
代理中间件(HttpProxyMiddleware)：
- 原版：Scrapy 默认代理中间件
- 替换为：ApifyHttpProxyMiddleware
- 优势：支持 Apify 的代理配置系统

异步处理机制

Scrapy 基于 Twisted 的异步机制与 Apify 的 AsyncIO 存在兼容性问题。解决方案：

使用 nest-asyncio 库处理事件循环嵌套
在蜘蛛代码中执行异步操作时，使用专用方法：

from apify.scrapy.utils import nested_event_loop
await nested_event_loop.run_until_complete(my_coroutine())

最佳实践与限制

项目结构建议

单个 Actor 对应单个 Spider
共享组件可通过 Python 包方式复用
输入参数通过 input_schema.json 配置

已知限制

异步代码兼容性：
- 避免在蜘蛛中混用 Twisted 和 AsyncIO 代码
- 必须使用提供的嵌套事件循环工具
多蜘蛛支持：
- 不建议单个 Actor 运行多个蜘蛛
- 每个蜘蛛应有独立的请求队列和输出存储

结语

通过 Apify CLI 工具，开发者可以轻松将现有的 Scrapy 项目迁移至 Apify 平台，享受云原生的爬虫执行环境。本文详细介绍了从本地开发到云端部署的全流程，以及底层技术实现细节。希望这些内容能帮助你顺利完成项目迁移。

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

515

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

647

284