4个步骤掌握Crawlee：从问题到解决方案的网页抓取实践指南

2026-03-15 04:08:28作者：柏廷章Berta

Crawlee—A web scraping and browser automation library for Node.js to build reliable crawlers. In JavaScript and TypeScript. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee

问题场景：现代网页抓取的三大挑战

在数据驱动决策的时代，网页抓取已成为获取公开信息的重要手段。但实际操作中，开发者常面临三个核心难题：动态内容加载导致的数据不全、反爬机制造成的访问限制、以及不同网站结构带来的适配复杂性。想象你需要从电商网站收集产品信息，却发现页面内容通过JavaScript动态加载，传统HTTP请求只能获取到空壳HTML；或者好不容易写出的爬虫，运行几次就被目标网站屏蔽；又或者面对不同网站的DOM结构，需要重写大量解析代码。这些问题不仅消耗时间，还可能导致项目延期。

Crawlee作为专为Node.js设计的网页抓取和浏览器自动化库，正是为解决这些挑战而生。它集成了数据提取、反屏蔽策略和工作流管理等功能，让开发者能专注于数据本身而非底层实现。接下来，我们将通过"问题场景→核心价值→实践路径→扩展应用"的逻辑，带你系统掌握Crawlee的使用方法。

核心价值：Crawlee的三种网页交互模式

Crawlee提供了三种核心爬虫类型，如同三种不同的工具，分别适用于不同的网页环境。理解它们的特性和适用场景，是选择合适工具的基础。

1. CheerioCrawler：静态内容的快速提取器

CheerioCrawler就像一把精确的手术刀，直接对HTML进行解析。它不加载浏览器，而是通过Cheerio库解析HTML字符串，提取所需数据。这种方式资源占用极低，速度快，适合处理服务器端渲染（SSR，即网页内容在服务器生成后再发送给浏览器）的静态网页或API返回的HTML数据。

适用场景：

新闻网站的文章列表页
产品目录的静态展示页
服务器端渲染的博客内容

2. PlaywrightCrawler：多浏览器的全能选手

PlaywrightCrawler则像一位经验丰富的浏览器操作员，能控制Chromium、Firefox、WebKit等多种浏览器。它能模拟真实用户的浏览行为，包括点击、滚动、填写表单等，非常适合处理需要JavaScript渲染的动态网页。

适用场景：

单页应用（SPA）如React、Vue构建的网站
需要登录后才能访问的内容
包含复杂交互的页面（如无限滚动、模态框）

3. PuppeteerCrawler：Chrome生态的深度集成者

PuppeteerCrawler专注于Chrome/Chromium浏览器的自动化，提供了丰富的API来控制浏览器行为。如果你需要深度定制Chrome的特性，或者已有基于Puppeteer的代码，它会是理想选择。

适用场景：

需要利用Chrome DevTools协议的高级功能
与Chrome扩展集成的爬虫任务
对Chrome有特定依赖的项目

实践路径：从零开始的爬虫开发流程

1. 3步完成环境配置

在开始编写爬虫前，我们需要准备好开发环境。Crawlee要求Node.js 16或更高版本，以下是具体步骤：

准备：检查Node.js环境

node -v  # 确保输出v16.0.0或更高版本
npm -v   # 检查npm是否可用

执行：安装Crawlee项目

# 使用Crawlee CLI创建新项目（推荐）
npx crawlee create my-crawler
cd my-crawler
npm install

验证：运行默认示例

npm start

如果一切正常，你将看到爬虫成功运行的日志信息，默认项目会抓取示例网站并输出结果。

2. 构建网页标题抓取器：基础爬虫实现

让我们以PlaywrightCrawler为例，构建一个抓取网页标题并保存的基础爬虫。这个例子将展示Crawlee的核心工作流程：创建爬虫实例、定义请求处理逻辑、启动爬虫。

准备：创建项目文件在my-crawler/src目录下，创建一个新的文件title-crawler.js。

执行：编写爬虫代码

import { PlaywrightCrawler, Dataset } from 'crawlee';

// 创建PlaywrightCrawler实例，配置浏览器行为
const crawler = new PlaywrightCrawler({
    // 开发时设置为false可显示浏览器窗口，便于观察
    headless: false,
    // 每个请求的处理逻辑
    async requestHandler({ page, request }) {
        // 从页面提取标题
        const title = await page.title();
        console.log(`成功抓取: ${title} (${request.url})`);
        
        // 将数据保存到数据集
        await Dataset.pushData({
            url: request.url,
            title,
            timestamp: new Date().toISOString()
        });
    }
});

// 启动爬虫，从指定URL开始
await crawler.run([
    'https://example.com',
    'https://example.org'
]);

验证：运行爬虫并查看结果

node src/title-crawler.js

运行后，浏览器会自动打开并访问目标URL，抓取的结果会保存在项目根目录下的storage/datasets/default文件夹中。你可以打开其中的JSON文件查看抓取到的标题数据。

3. 实现无限滚动页面抓取：进阶功能应用

许多现代网站采用无限滚动加载内容，如社交媒体动态、电商商品列表等。Crawlee提供了便捷的方法来处理这类页面。

准备：分析目标页面的滚动加载机制打开目标网站，使用浏览器开发者工具（F12）观察滚动时的网络请求，确定内容加载的触发条件。

执行：编写无限滚动处理代码

import { PlaywrightCrawler } from 'crawlee';

const crawler = new PlaywrightCrawler({
    headless: false,
    async requestHandler({ page }) {
        // 初始滚动位置
        let lastHeight = await page.evaluate('document.body.scrollHeight');
        
        while (true) {
            // 提取当前页面数据（这里以商品标题为例）
            const products = await page.$$eval('.product-title', els => 
                els.map(el => el.textContent.trim())
            );
            console.log(`当前页商品数: ${products.length}`);
            
            // 滚动到页面底部
            await page.evaluate('window.scrollTo(0, document.body.scrollHeight)');
            
            // 等待新内容加载
            await page.waitForTimeout(2000);
            
            // 检查是否已滚动到页面底部
            const newHeight = await page.evaluate('document.body.scrollHeight');
            if (newHeight === lastHeight) break;
            lastHeight = newHeight;
        }
    }
});

await crawler.run(['https://example-infinite-scroll.com/products']);

验证：观察爬虫行为运行爬虫后，你会看到浏览器自动滚动页面，不断加载新内容并提取数据，直到无法加载更多为止。

4. 表单提交与数据获取：交互能力实践

除了被动抓取，Crawlee还能模拟用户填写表单、点击按钮等交互行为，这对于需要登录或筛选条件的场景非常有用。

准备：分析表单结构使用浏览器开发者工具定位表单元素，记录输入框的选择器和提交按钮的选择器。

执行：编写表单提交代码

import { PlaywrightCrawler } from 'crawlee';

const crawler = new PlaywrightCrawler({
    headless: false,
    async requestHandler({ page }) {
        // 导航到登录页面
        await page.goto('https://example-login.com');
        
        // 填写表单
        await page.fill('input[name="username"]', 'your_username');
        await page.fill('input[name="password"]', 'your_password');
        
        // 提交表单
        await Promise.all([
            page.click('button[type="submit"]'),
            page.waitForNavigation()
        ]);
        
        // 登录后提取数据
        const welcomeMessage = await page.textContent('.welcome-message');
        console.log('登录成功:', welcomeMessage);
    }
});

await crawler.run();

验证：检查登录状态运行爬虫后，观察浏览器是否成功填写并提交表单，以及是否正确提取到登录后的欢迎信息。

避坑指南

⚠️ 常见错误1：页面加载不完全导致数据提取失败 解决方案：使用page.waitForSelector()等待关键元素出现，确保页面加载完成。

// 等待商品列表加载完成
await page.waitForSelector('.product-list');

⚠️ 常见错误2：请求频率过高被网站屏蔽 解决方案：配置请求延迟和并发控制，模拟人类浏览行为。

const crawler = new PlaywrightCrawler({
    minConcurrency: 1,
    maxConcurrency: 2,
    requestHandlerTimeoutSecs: 30,
    // 随机延迟
    async preNavigationHooks({ page }) {
        await page.waitForTimeout(Math.random() * 2000 + 1000);
    }
});

⚠️ 常见错误3：内存泄漏导致爬虫崩溃 解决方案：及时清理页面资源，避免无限积累。

async requestHandler({ page }) {
    try {
        // 爬虫逻辑
    } finally {
        // 关闭页面释放资源
        await page.close();
    }
}

扩展应用：Crawlee的高级特性与生态

1. 数据存储与导出

Crawlee提供了灵活的数据存储机制，默认将数据保存在本地文件系统，也支持导出为CSV、JSON等格式，方便后续分析。

import { Dataset } from 'crawlee';

// 导出为CSV文件
await Dataset.exportToCSV('products');
// 导出为JSON文件
await Dataset.exportToJSON('products');

导出的文件会保存在storage/exports目录下，你可以用Excel或其他数据分析工具打开查看。

2. 反屏蔽策略配置

为了提高爬虫的稳定性，Crawlee内置了多种反屏蔽机制，如会话池、代理管理等。以下是一个基本的反屏蔽配置示例：

const crawler = new PlaywrightCrawler({
    // 启用会话池管理
    useSessionPool: true,
    sessionPoolOptions: {
        sessionOptions: {
            maxUsageCount: 5, // 每个会话最多使用5次
            maxAgeSecs: 300   // 会话最长存活时间5分钟
        }
    },
    // 配置代理（需替换为实际代理服务）
    proxyConfiguration: {
        proxyUrls: ['http://proxy1:port', 'http://proxy2:port']
    }
});