4个步骤掌握Crawlee：从入门到构建企业级网页抓取系统

2026-03-15 05:45:30作者：郦嵘贵Just

Crawlee—A web scraping and browser automation library for Node.js to build reliable crawlers. In JavaScript and TypeScript. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee

问题引入：网页抓取的三大行业痛点

在数据驱动决策的时代，网页抓取技术已成为企业获取公开数据的核心手段。然而，开发者在实际操作中常常面临以下挑战：

1. 动态内容渲染障碍

现代网站广泛采用SPA（单页应用，即通过JavaScript动态加载内容的网页）架构，传统HTTP爬虫只能获取初始HTML，无法执行JavaScript渲染的内容。某电商平台的商品价格信息通过API动态加载，使用基础爬虫只能得到"加载中..."的占位文本，导致数据采集完全失效。

2. 反爬机制应对困难

目标网站通过IP追踪、行为分析、验证码等多重手段阻止自动化抓取。某房产数据公司因未处理好请求频率控制，导致IP被目标网站永久封禁，项目停滞一周。

3. 大规模爬取效率瓶颈

需要采集百万级数据时，单线程串行爬取耗时过长，而多线程并发又容易触发网站反爬机制。某市场研究机构抓取20万个产品页面，原始方案需要3天完成，无法满足周报数据更新需求。

技术方案：Crawlee的三级爬虫体系

如何选择适合的爬虫类型？技术选型决策树

面对不同的网页类型和抓取需求，Crawlee提供了清晰的技术选型路径：

内容类型判断：检查目标网站是否需要JavaScript渲染
- 是 → 进入浏览器爬虫选择
- 否 → 使用CheerioCrawler轻量级方案
浏览器需求判断：是否需要多浏览器支持或特定浏览器功能
- 需要多浏览器/跨平台 → PlaywrightCrawler
- 仅需Chrome/Chromium → PuppeteerCrawler
性能需求判断：根据数据规模和时效性要求调整配置
- 大规模数据 → 启用并发控制和分布式
- 高反爬网站 → 配置会话池和代理轮换

轻量级方案：CheerioCrawler

核心特点：基于Cheerio解析HTML，不执行JavaScript，资源占用低，速度快。

import { CheerioCrawler, Dataset } from 'crawlee';

// 场景说明：抓取静态博客网站的文章标题和发布日期
// 注意事项：仅适用于服务器端渲染(SSR)页面，无法处理动态加载内容
const crawler = new CheerioCrawler({
    // 并发控制：根据目标网站承受能力调整
    maxConcurrency: 5,
    async requestHandler({ $, request }) {
        // 提取页面数据
        const title = $('h1.article-title').text().trim();
        const date = $('time.published').attr('datetime');
        
        if (title) {
            console.log(`抓取文章: ${title}`);
            // 保存数据到数据集
            await Dataset.pushData({
                url: request.url,
                title,
                date,
                scrapedAt: new Date().toISOString()
            });
        }
    },
    // 错误处理：记录失败的请求以便重试
    failedRequestHandler({ request }) {
        console.log(`请求失败: ${request.url} (${request.errorMessage})`);
    }
});

// 启动爬虫
await crawler.run([
    'https://example-blog.com/articles',
    'https://example-blog.com/tutorials'
]);

适用场景：

静态HTML网站数据抓取
服务器端渲染(SSR)页面内容提取
API响应数据解析
对速度要求高、资源受限的环境

进阶方案：PlaywrightCrawler

核心特点：支持Chromium、Firefox和WebKit三大浏览器引擎，可模拟真实用户行为，处理复杂动态内容。

import { PlaywrightCrawler, Dataset } from 'crawlee';

// 场景说明：抓取需要登录的电商网站产品评论
// 注意事项：运行时会自动下载浏览器，首次执行可能较慢
const crawler = new PlaywrightCrawler({
    // 浏览器配置：设置视窗大小和用户代理
    launchContext: {
        launchOptions: {
            headless: false, // 开发时设为false可查看浏览器操作
            viewport: { width: 1280, height: 720 }
        }
    },
    // 页面操作超时设置
    requestHandlerTimeoutSecs: 60,
    async requestHandler({ page, request, enqueueLinks }) {
        // 登录处理：仅在登录页执行
        if (request.url.includes('/login')) {
            // 填写登录表单
            await page.fill('input[name="username"]', 'your-email@example.com');
            await page.fill('input[name="password"]', 'your-password');
            await Promise.all([
                page.click('button[type="submit"]'),
                page.waitForNavigation()
            ]);
            console.log('登录成功，继续抓取产品页面');
        } else {
            // 提取产品评论
            const productName = await page.textContent('.product-title');
            const reviews = await page.$$eval('.review-item', (items) => 
                items.map(item => ({
                    author: item.querySelector('.review-author').textContent,
                    date: item.querySelector('.review-date').textContent,
                    rating: item.querySelector('.review-rating').textContent,
                    content: item.querySelector('.review-content').textContent
                }))
            );
            
            // 保存评论数据
            await Dataset.pushData({
                productName,
                url: request.url,
                reviews,
                scrapedAt: new Date().toISOString()
            });
            
            // 发现并添加下一页链接
            await enqueueLinks({
                selector: 'a.next-page',
                label: 'next'
            });
        }
    }
});

// 从登录页开始抓取
await crawler.run(['https://example-ecommerce.com/login']);

适用场景：

动态JavaScript渲染内容抓取
需要用户交互的场景（登录、表单提交）
跨浏览器兼容性测试
复杂UI元素提取

专业方案：企业级爬虫系统配置

核心特点：整合会话池、代理管理、分布式爬取等高级功能，满足大规模、高稳定性的数据采集需求。

import { PlaywrightCrawler, ProxyConfiguration, SessionPool } from 'crawlee';

// 场景说明：大规模电商数据采集系统，需绕过反爬机制
// 注意事项：生产环境需配置高质量代理池和合理的请求间隔
const proxyConfiguration = new ProxyConfiguration({
    // 代理URL列表，可来自第三方代理服务
    proxyUrls: [
        'http://username:password@proxy1.example.com:8000',
        'http://username:password@proxy2.example.com:8000',
        // ...更多代理
    ],
    // 自动轮换代理
    useApifyProxy: false
});

// 会话池配置：管理浏览器指纹和Cookie
const sessionPool = new SessionPool({
    maxPoolSize: 50, // 最大会话数
    sessionOptions: {
        maxUsageCount: 10, // 每个会话最多使用10次
        maxAgeSecs: 3600 // 会话有效期1小时
    }
});

const crawler = new PlaywrightCrawler({
    proxyConfiguration,
    sessionPool,
    // 并发控制：根据代理质量和目标网站承受能力调整
    minConcurrency: 5,
    maxConcurrency: 20,
    // 请求间隔：模拟人类浏览行为
    requestHandlerTimeoutSecs: 120,
    navigationTimeoutSecs: 60,
    // 失败重试策略
    maxRequestRetries: 3,
    retryOnBlocked: true,
    // 浏览器指纹配置
    launchContext: {
        launchOptions: {
            headless: 'new',
            // 随机化用户代理
            userAgent: undefined // 使用Playwright自动生成
        }
    },
    async requestHandler({ page, request, session }) {
        // 记录当前会话信息
        console.log(`使用会话 ${session.id} 通过代理 ${session.proxyUrl} 访问 ${request.url}`);
        
        // 页面操作...
        // 提取数据...
    },
    // 动态调整爬虫策略
    async failedRequestHandler({ request, session, log }) {
        log.error(`请求失败: ${request.url}，状态码: ${request.statusCode}`);
        
        // 如果是代理问题，标记当前会话为坏会话
        if ([403, 429].includes(request.statusCode)) {
            session.markBad();
            log.info(`标记会话 ${session.id} 为坏会话`);
        }
    }
});

// 启动爬虫
await crawler.run([
    'https://example-ecommerce.com/categories'
]);

适用场景：

企业级大规模数据采集
高反爬目标网站
长期运行的监控型爬虫
需要分布式部署的抓取任务

实践环节：从零构建网页数据采集系统

基础版：新闻网站标题抓取器

目标：构建一个能够抓取科技新闻网站标题和链接的基础爬虫，并将结果保存为JSON格式。

操作步骤：

项目初始化

# 创建Crawlee项目
npx crawlee create news-crawler
cd news-crawler

# 安装依赖
npm install

编写爬虫代码 创建src/main.js文件，添加以下代码：

import { CheerioCrawler, Dataset } from 'crawlee';

// 场景说明：抓取科技新闻网站首页标题和链接
// 注意事项：请遵守目标网站的robots.txt规则和使用条款
const crawler = new CheerioCrawler({
    async requestHandler({ $, request }) {
        console.log(`正在处理: ${request.url}`);
        
        // 提取新闻标题和链接
        const articles = [];
        $('.article-item').each((_, el) => {
            const title = $(el).find('h2 a').text().trim();
            const link = $(el).find('h2 a').attr('href');
            
            if (title && link) {
                articles.push({
                    title,
                    url: link.startsWith('http') ? link : new URL(link, request.url).href,
                    source: request.url
                });
            }
        });
        
        // 保存数据
        if (articles.length > 0) {
            await Dataset.pushData(articles);
            console.log(`成功提取 ${articles.length} 篇文章`);
        }
        
        // 发现下一页链接
        const nextPage = $('.pagination-next a').attr('href');
        if (nextPage) {
            await crawler.addRequests([nextPage]);
            console.log(`发现下一页: ${nextPage}`);
        }
    }
});

// 启动爬虫
crawler.run(['https://tech-news.example.com/latest']);

运行爬虫并查看结果
```
npm start
```
🔍 重点步骤：运行后查看storage/datasets/default目录下的JSON文件，包含抓取的新闻数据。

💡 实用技巧：修改maxConcurrency参数可以调整爬虫速度，数值越高抓取越快，但也越容易被网站限制。

进阶版：电商产品价格监控系统

目标：构建一个能够定期抓取电商网站产品价格，并在价格下降时发出通知的系统。

操作步骤：

项目结构设置

# 创建项目
npx crawlee create price-monitor
cd price-monitor

# 安装额外依赖
npm install nodemailer dotenv

配置环境变量 创建.env文件：

SMTP_HOST=smtp.example.com
SMTP_PORT=587
SMTP_USER=your-email@example.com
SMTP_PASS=your-email-password
NOTIFY_EMAIL=recipient@example.com

编写完整监控系统代码 创建src/main.js文件：

import { PlaywrightCrawler, Dataset, KeyValueStore } from 'crawlee';
import nodemailer from 'nodemailer';
import dotenv from 'dotenv';
import fs from 'fs';
import path from 'path';

// 加载环境变量
dotenv.config();

// 产品列表：需要监控的产品URL
const PRODUCT_URLS = [
    'https://example-ecommerce.com/product/laptop-15',
    'https://example-ecommerce.com/product/smartphone-x',
    'https://example-ecommerce.com/product/wireless-headphones'
];

// 邮件发送函数
async function sendPriceAlert(product) {
    const transporter = nodemailer.createTransport({
        host: process.env.SMTP_HOST,
        port: process.env.SMTP_PORT,
        secure: process.env.SMTP_PORT === 465,
        auth: {
            user: process.env.SMTP_USER,
            pass: process.env.SMTP_PASS
        }
    });

    await transporter.sendMail({
        from: `"价格监控系统" <${process.env.SMTP_USER}>`,
        to: process.env.NOTIFY_EMAIL,
        subject: `🔔 ${product.name} 价格下降通知`,
        text: `
            产品: ${product.name}
            原价: ¥${product.oldPrice}
            现价: ¥${product.newPrice}
            降幅: ${product.dropPercentage}%
            链接: ${product.url}
        `,
        html: `
            <h2>产品价格下降通知</h2>
            <h3>${product.name}</h3>
            <p>原价: <strike>¥${product.oldPrice}</strike></p>
            <p>现价: <strong style="color: red;">¥${product.newPrice}</strong></p>
            <p>降幅: ${product.dropPercentage}%</p>
            <p><a href="${product.url}">查看产品</a></p>
        `
    });
}

// 初始化爬虫
const crawler = new PlaywrightCrawler({
    launchContext: {
        launchOptions: {
            headless: 'new'
        }
    },
    async requestHandler({ page, request }) {
        // 等待产品页面加载完成
        await page.waitForSelector('.product-main');
        
        // 提取产品信息
        const productInfo = await page.evaluate(() => {
            const name = document.querySelector('.product-title').textContent.trim();
            const priceText = document.querySelector('.product-price').textContent.trim();
            const price = parseFloat(priceText.replace(/[^\d.]/g, ''));
            const image = document.querySelector('.product-image').src;
            
            return { name, price, image };
        });
        
        // 获取存储的历史价格
        const kvStore = await KeyValueStore.open();
        const recordKey = `product_${request.url.split('/').pop()}`;
        const oldRecord = await kvStore.getValue(recordKey);
        
        // 准备当前记录
        const currentRecord = {
            ...productInfo,
            url: request.url,
            timestamp: new Date().toISOString()
        };
        
        // 保存当前价格
        await kvStore.setValue(recordKey, currentRecord);
        await Dataset.pushData(currentRecord);
        
        // 检查价格是否下降
        if (oldRecord && oldRecord.price > currentRecord.price) {
            const dropAmount = oldRecord.price - currentRecord.price;
            const dropPercentage = ((dropAmount / oldRecord.price) * 100).toFixed(1);
            
            console.log(`价格下降: ${productInfo.name} - ¥${oldRecord.price} → ¥${currentRecord.price} (↓${dropPercentage}%)`);
            
            // 发送通知
            await sendPriceAlert({
                ...currentRecord,
                oldPrice: oldRecord.price,
                newPrice: currentRecord.price,
                dropPercentage
            });
        } else if (!oldRecord) {
            console.log(`首次记录: ${productInfo.name} - ¥${currentRecord.price}`);
        } else {
            console.log(`价格未变: ${productInfo.name} - ¥${currentRecord.price}`);
        }
    }
});

// 启动爬虫
console.log('开始价格监控...');
await crawler.run(PRODUCT_URLS);
console.log('价格监控完成');

设置定时任务 在package.json中添加脚本：
```
"scripts": {
    "start": "node src/main.js",
    "monitor": "node src/main.js",
    "schedule": "node -e \"setInterval(() => require('child_process').exec('npm run monitor'), 86400000)\""
}
```
⚠️ 警告：设置定时任务时请遵守目标网站的访问频率限制，过于频繁的请求可能导致IP被封禁。

💡 实用技巧：可以使用PM2等进程管理工具确保监控脚本持续运行：pm2 start npm --name "price-monitor" -- run schedule

拓展部分：技术原理与行业应用

技术原理：Crawlee核心机制解析

请求队列管理原理

Crawlee的请求队列系统采用先进先出(FIFO)的优先级队列设计，确保爬虫能够有序、高效地处理大量URL：

队列存储：请求队列支持内存存储和持久化存储两种模式，内存模式适用于小规模爬取，持久化模式（基于文件或数据库）适用于大规模或需要断点续爬的场景。
优先级控制：每个请求可以设置优先级（0-10），高优先级的请求会被优先处理，适用于需要优先抓取重要页面的场景。
去重机制：自动对URL进行去重处理，避免重复抓取同一页面，可通过uniqueKey自定义去重规则。
深度控制：通过depth属性跟踪请求深度，可限制爬取深度，防止爬虫过度扩散。

浏览器自动化工作流程

PlaywrightCrawler和PuppeteerCrawler基于浏览器自动化技术，工作流程如下：

浏览器实例管理：Crawlee会自动管理浏览器实例池，根据并发设置创建和复用浏览器进程，避免频繁启动关闭浏览器带来的性能开销。
页面操作执行：通过DevTools协议与浏览器通信，执行页面导航、元素交互、表单填写等操作，模拟真实用户行为。
网络请求拦截：可以拦截和修改页面发出的网络请求，用于处理认证、修改请求头或模拟API响应。
渲染结果提取：等待页面JavaScript执行完成后，提取渲染后的DOM内容，解决动态内容抓取问题。

技术对比：Crawlee与同类工具优劣势分析

Crawlee vs Scrapy

优势：JavaScript渲染能力更强，API更现代化，TypeScript支持更好，内置反爬机制更完善
劣势：生态系统相对较小，Python开发者学习成本较高，社区资源相对较少

Crawlee vs Selenium

优势：专为数据抓取优化，内置请求队列和数据存储，并发控制更智能
劣势：仅支持Node.js，不支持其他编程语言，学习曲线较陡峭

Crawlee vs Puppeteer/Playwright

优势：提供完整的爬虫生命周期管理，内置数据存储和请求管理，反爬策略更丰富
劣势：比原生Puppeteer/Playwright有一定性能开销，灵活性略有降低

行业应用：Crawlee在各领域的实践案例

1. 电商价格监控

某价格比较网站使用Crawlee构建了覆盖100+电商平台的价格监控系统，通过PlaywrightCrawler处理动态加载的价格数据，利用会话池和代理轮换技术保持长期稳定运行，每日更新超过100万件商品价格。

2. 房地产数据分析

房地产研究机构利用Crawlee定期抓取各大房产平台的房源数据，通过CheerioCrawler快速提取静态页面信息，结合PlaywrightCrawler处理需要登录的平台，构建了包含历史价格趋势的房地产数据库。

3. 社交媒体舆情分析

某公关公司使用Crawlee构建社交媒体监控系统，通过模拟登录获取需要认证的内容，利用自定义的请求调度策略避免触发平台限制，实时收集品牌相关讨论并进行情感分析。

4. 新闻内容聚合

新闻聚合应用使用Crawlee的自动链接发现功能，从各大新闻网站抓取最新文章，通过自定义提取规则结构化新闻内容，实现了分钟级的内容更新。

高级配置：构建企业级分布式爬虫

分布式爬取配置示例：

import { PlaywrightCrawler, ProxyConfiguration, KeyValueStore } from 'crawlee';
import { RedisClient } from 'redis';

// 连接Redis用于分布式协调
const redisClient = new RedisClient({
    url: 'redis://redis-server:6379'
});
await redisClient.connect();

// 使用Redis存储请求队列，实现分布式爬取
const requestQueue = await RequestQueue.open('distributed-queue', {
    client: redisClient,
    prefix: 'crawlee:'
});

// 添加初始URL
for (const url of ['https://example.com/categories']) {
    await requestQueue.addRequest({ url });
}

// 代理配置：使用代理服务API动态获取代理
const proxyConfiguration = new ProxyConfiguration({
    proxyUrls: async () => {
        const response = await fetch('https://proxy-service.example.com/api/proxies');
        const proxies = await response.json();
        return proxies.map(p => `http://${p.ip}:${p.port}`);
    },
    // 每10分钟刷新一次代理列表
    proxyUrlsRefreshIntervalSecs: 600
});

const crawler = new PlaywrightCrawler({
    requestQueue,
    proxyConfiguration,
    // 分布式任务分配
    maxConcurrency: 50,
    // 状态持久化
    persistCrawlerConfiguration: true,
    // 错误恢复
    crawlPersistence: {
        keyValueStoreName: 'crawler-state',
        persistStateIntervalSecs: 60
    },
    async requestHandler({ page, request }) {
        // 页面处理逻辑...
    }
});

// 启动爬虫
await crawler.run();