10分钟掌握Crawlee网页抓取实战指南：从入门到项目部署

2026-03-15 04:17:01作者：庞队千Virginia

Crawlee—A web scraping and browser automation library for Node.js to build reliable crawlers. In JavaScript and TypeScript. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee

Crawlee是一款基于Node.js的开源爬虫工具，专为构建可靠、高效的网页抓取和浏览器自动化项目设计。无论你需要抓取静态网页内容、处理JavaScript动态渲染页面，还是构建复杂的全站爬虫，Crawlee都能提供简单易用且功能强大的解决方案。本文将通过问题导向的实战教学，帮助你快速掌握这款工具的核心能力，从零开始构建专业级爬虫项目。

问题导入：现代网页抓取的四大挑战

在开始使用Crawlee之前，让我们先了解网页抓取常见的技术难点，这些正是Crawlee致力于解决的核心问题：

动态内容加载障碍

现代网站广泛采用JavaScript动态加载内容（如React、Vue等框架构建的单页应用），传统HTTP请求只能获取初始HTML，无法获取异步加载的数据。这就像只拿到了一本书的封面，却看不到里面的内容。

反爬虫机制拦截

网站通过检测请求频率、用户代理、IP地址等手段阻止爬虫访问，常见的如Cloudflare验证、IP封禁、验证码等。据统计，超过60%的商业网站都部署了某种形式的反爬机制。

大规模爬取效率瓶颈

当需要抓取成千上万网页时，如何合理控制并发请求、管理任务队列、处理失败重试，成为影响爬虫效率的关键因素。

数据提取与存储复杂性

从复杂网页中精准提取所需数据，以及高效存储、导出结构化数据，需要处理HTML解析、数据清洗、格式转换等多个环节。

核心能力：Crawlee的三大技术优势

Crawlee作为一款现代化爬虫框架，通过以下核心能力解决上述挑战，让网页抓取变得简单高效：

⚡ 多引擎渲染系统

Crawlee提供三种核心爬虫引擎，覆盖从简单到复杂的各种抓取场景：

CheerioCrawler：轻量级HTML解析引擎

基于Cheerio库构建，专注于静态网页抓取。它像一把高效的手术刀，直接解析HTML字符串，不需要加载浏览器，资源占用低、速度快。适用于服务器端渲染(SSR：服务器端渲染，即网页内容在服务器生成后再发送给浏览器)的网站或API数据抓取。

// 适用场景：快速抓取静态网页标题和元数据
import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
    async requestHandler({ $, request }) {
        // 使用类似jQuery的语法提取数据
        const pageData = {
            url: request.url,
            title: $('title').text().trim(),
            description: $('meta[name="description"]').attr('content') || '',
            timestamp: new Date().toISOString()
        };
        console.log(`抓取完成: ${pageData.title}`);
    }
});

// 启动爬虫
await crawler.run(['https://example.com', 'https://crawlee.dev']);

PlaywrightCrawler：多浏览器自动化引擎

集成Playwright库，支持Chromium、Firefox、WebKit等多种浏览器，能够完全模拟真实用户行为。就像雇佣了一位虚拟助手，帮你操作浏览器访问网页、点击按钮、填写表单。适用于需要JavaScript渲染的动态网页。

// 适用场景：抓取需要登录或JavaScript渲染的动态内容
import { PlaywrightCrawler } from 'crawlee';

const crawler = new PlaywrightCrawler({
    // 开发时可设置为false显示浏览器窗口
    headless: true,
    async requestHandler({ page, request }) {
        // 等待页面关键元素加载完成
        await page.waitForSelector('div.product-listing');
        
        // 提取商品列表数据
        const products = await page.$$eval('div.product-item', items => 
            items.map(item => ({
                name: item.querySelector('h3').textContent,
                price: item.querySelector('.price').textContent
            }))
        );
        
        console.log(`在${request.url}找到${products.length}个商品`);
    }
});

await crawler.run(['https://example.com/products']);

PuppeteerCrawler：Chrome专用自动化引擎

专注于Chrome/Chromium浏览器自动化，API成熟稳定，适合需要深度控制Chrome浏览器的场景。

🔍 智能请求管理系统

Crawlee内置强大的请求调度机制，自动处理并发控制、重试逻辑和任务优先级，让你无需担心爬虫崩溃或被封禁：

自动重试：失败请求智能重试，可配置重试次数和延迟策略
并发控制：灵活设置并发请求数量，避免服务器过载
请求队列：自动管理待爬URL队列，支持优先级和去重

// 适用场景：控制爬虫行为，提高稳定性和效率
const crawler = new PlaywrightCrawler({
    // 并发控制
    minConcurrency: 2,
    maxConcurrency: 5,
    // 重试设置
    maxRequestRetries: 3,
    retryOnBlocked: true,
    // 延迟控制
    requestHandlerTimeoutSecs: 60,
    navigationTimeoutSecs: 30,
});

📊 内置数据处理流程

从数据提取到存储导出，Crawlee提供完整的数据处理解决方案：

结构化数据存储：自动将数据保存到本地文件系统
多种导出格式：支持JSON、CSV等多种数据格式导出
数据集管理：方便地查看、筛选和导出抓取结果

// 适用场景：存储抓取结果并导出为CSV文件
import { PlaywrightCrawler, Dataset } from 'crawlee';

const crawler = new PlaywrightCrawler({
    async requestHandler({ page, request }) {
        const title = await page.title();
        // 保存数据到数据集
        await Dataset.pushData({
            url: request.url,
            title,
            timestamp: new Date().toISOString()
        });
    }
});

await crawler.run(['https://example.com']);
// 导出数据为CSV
await Dataset.exportToCSV('results');

场景化实践：从基础到进阶的爬虫开发

零基础环境配置指南

环境准备

📌 第一步：检查Node.js环境 Crawlee需要Node.js 16或更高版本。打开终端，输入以下命令检查版本：

node -v  # 检查Node.js版本，需≥16.0.0
npm -v   # 检查npm版本

如果未安装或版本过低，请先安装Node.js（推荐使用nvm管理Node.js版本）。

项目创建

📌 第二步：创建Crawlee项目 推荐使用Crawlee CLI快速创建项目，它会自动生成标准项目结构并安装依赖：

npx crawlee create my-first-crawler
cd my-first-crawler

根据提示选择爬虫类型（如PlaywrightCrawler）和TypeScript/JavaScript，等待依赖安装完成。

📌 第三步：运行示例爬虫 项目创建完成后，可直接运行内置示例：

npm start

你将看到爬虫自动启动，访问示例网站并输出抓取结果。项目文件结构说明：

src/main.js：爬虫入口文件
storage/：存储抓取结果和请求队列
package.json：项目依赖和配置

实战案例一：基础版网页信息提取器

功能需求

创建一个爬虫，抓取指定网站的页面标题、描述和URL，并保存为JSON文件。

实现步骤

📌 第一步：修改爬虫代码 打开src/main.js，替换为以下代码：

// 适用场景：快速抓取多个网页的元数据
import { PlaywrightCrawler, Dataset } from 'crawlee';

// 要抓取的网站列表
const START_URLS = [
    'https://crawlee.dev',
    'https://crawlee.dev/docs/introduction',
    'https://crawlee.dev/docs/examples'
];

// 创建爬虫实例
const crawler = new PlaywrightCrawler({
    // 开发时设置为false可显示浏览器窗口
    headless: false,
    async requestHandler({ page, request }) {
        console.log(`正在抓取: ${request.url}`);
        
        // 提取页面元数据
        const title = await page.title();
        const description = await page.$eval('meta[name="description"]', el => 
            el.getAttribute('content') || '无描述'
        );
        
        // 保存数据
        await Dataset.pushData({
            url: request.url,
            title,
            description,
            date: new Date().toISOString()
        });
    }
});

// 启动爬虫
await crawler.run(START_URLS);
console.log('抓取完成！结果保存在storage/datasets/default目录');

📌 第二步：运行爬虫并查看结果

npm start

爬虫运行完成后，结果将保存在storage/datasets/default目录下的JSON文件中。你可以直接查看该文件，或使用Crawlee提供的数据集查看工具：

npx crawlee open:dataset

实战案例二：进阶版电商产品抓取器

功能需求

创建一个能够抓取电商网站产品列表的爬虫，支持自动翻页，提取产品名称、价格、评分等信息，并处理动态加载内容。

实现步骤

📌 第一步：编写爬虫代码

// 适用场景：抓取电商网站产品数据，支持无限滚动加载
import { PlaywrightCrawler, Dataset } from 'crawlee';

const crawler = new PlaywrightCrawler({
    headless: false,
    async requestHandler({ page, request, enqueueLinks }) {
        console.log(`正在处理: ${request.url}`);
        
        // 处理无限滚动加载
        if (request.userData.label === 'PRODUCT_LIST') {
            // 滚动到页面底部加载更多产品
            await autoScroll(page);
            
            // 提取产品数据
            const products = await page.$$eval('.product-item', items => 
                items.map(item => ({
                    name: item.querySelector('.product-name').textContent.trim(),
                    price: item.querySelector('.product-price').textContent.trim(),
                    rating: item.querySelector('.product-rating')?.textContent || '无评分',
                    image: item.querySelector('.product-image').src
                }))
            );
            
            // 保存产品数据
            await Dataset.pushData(products);
            
            // 查找下一页链接并添加到队列
            await enqueueLinks({
                selector: 'a.next-page',
                label: 'PRODUCT_LIST'
            });
        }
    }
});

// 无限滚动辅助函数
async function autoScroll(page) {
    await page.evaluate(async () => {
        await new Promise((resolve) => {
            let totalHeight = 0;
            const distance = 100;
            const timer = setInterval(() => {
                const scrollHeight = document.body.scrollHeight;
                window.scrollBy(0, distance);
                totalHeight += distance;
                
                if (totalHeight >= scrollHeight - window.innerHeight) {
                    clearInterval(timer);
                    resolve();
                }
            }, 100);
        });
    });
}

// 启动爬虫，标记初始请求为产品列表页
await crawler.run([{
    url: 'https://example.com/products',
    userData: { label: 'PRODUCT_LIST' }
}]);

⚠️ 重要提示：在实际使用时，请将https://example.com/products替换为真实的电商网站URL，并根据目标网站的HTML结构调整选择器（如.product-item、.product-name等）。

📌 第二步：配置反屏蔽策略 为避免爬虫被目标网站屏蔽，添加以下配置：

// 在爬虫配置中添加反屏蔽设置
const crawler = new PlaywrightCrawler({
    // 其他配置...
    // 会话池管理
    useSessionPool: true,
    sessionPoolOptions: {
        sessionOptions: {
            maxUsageCount: 5, // 每个会话最多使用5次
            maxAgeSecs: 300   // 会话有效期5分钟
        }
    },
    // 随机延迟
    minConcurrency: 1,
    maxConcurrency: 3,
    // 重试策略
    maxRequestRetries: 3,
    retryOnBlocked: true,
    // 随机用户代理
    browserPoolOptions: {
        useFingerprints: true
    }
});

图：Crawlee会话池工作原理示意图，通过轮换会话和代理提高爬虫稳定性

进阶拓展：从功能到部署的完整方案

动态网页抓取方案

现代网站广泛采用JavaScript动态加载内容，特别是单页应用(SPA)和无限滚动页面。Crawlee提供多种策略处理这些场景：

处理无限滚动页面

对于需要滚动加载更多内容的页面（如社交媒体 feed、电商产品列表），可以使用前面案例中的autoScroll函数，或使用Crawlee的enqueueLinks结合滚动：

图：使用Crawlee抓取无限滚动页面的工作流程

// 适用场景：处理无限滚动加载的产品列表
async function handleInfiniteScroll(page) {
    let previousHeight;
    let currentHeight = await page.evaluate('document.body.scrollHeight');
    const maxScrolls = 5; // 限制最大滚动次数，避免无限循环
    let scrollCount = 0;
    
    while (previousHeight !== currentHeight && scrollCount < maxScrolls) {
        previousHeight = currentHeight;
        await page.evaluate('window.scrollTo(0, document.body.scrollHeight)');
        await page.waitForTimeout(2000); // 等待内容加载
        currentHeight = await page.evaluate('document.body.scrollHeight');
        scrollCount++;
    }
}

等待动态内容加载

使用Playwright的等待机制，确保页面元素加载完成后再提取数据：

// 适用场景：等待特定元素加载完成
// 方法1：等待选择器出现
await page.waitForSelector('.product-item', { timeout: 10000 });

// 方法2：等待网络请求完成
await Promise.all([
    page.waitForResponse(response => 
        response.url().includes('/api/products') && response.ok()
    ),
    page.click('.load-more-button')
]);

爬虫反屏蔽技巧

为提高爬虫的稳定性和成功率，需要采取一系列反屏蔽措施：

代理管理

Crawlee内置代理轮换功能，可配置代理池避免IP被封禁：

// 适用场景：使用代理池轮换IP地址
import { ProxyConfiguration } from 'crawlee';

const proxyConfiguration = new ProxyConfiguration({
    proxyUrls: [
        'http://proxy1:port',
        'http://proxy2:port',
        // 添加更多代理...
    ],
    // 或从文件加载代理列表
    // proxyUrls: await readProxyListFromFile('proxies.txt'),
});

const crawler = new PlaywrightCrawler({
    proxyConfiguration,
    // 其他配置...
});

用户行为模拟

模拟真实用户的浏览行为，避免被网站识别为爬虫：

// 适用场景：模拟真实用户行为
async requestHandler({ page }) {
    // 随机延迟
    await page.waitForTimeout(Math.random() * 2000 + 1000);
    
    // 随机滚动
    await page.mouse.wheel(0, Math.random() * 500);
    
    // 随机点击页面元素
    const links = await page.$$('a');
    if (links.length > 0 && Math.random() > 0.7) {
        const randomLink = links[Math.floor(Math.random() * links.length)];
        await randomLink.click();
        await page.waitForNavigation();
        await page.goBack();
    }
}

部署与监控

Docker容器化部署

将爬虫打包为Docker容器，便于在各种环境中运行：

📌 创建Dockerfile

FROM apify/actor-node-playwright-chrome:16

WORKDIR /usr/src/app

COPY package*.json ./
RUN npm install --production

COPY . ./

CMD ["npm", "start"]

📌 构建并运行容器

docker build -t my-crawlee-crawler .
docker run -v $(pwd)/storage:/usr/src/app/storage my-crawlee-crawler

爬虫监控与调试

Crawlee提供多种监控和调试工具：

日志系统：详细记录爬虫运行状态
可视化界面：通过npx crawlee open命令打开监控界面
错误跟踪：自动记录和重试失败的请求

常见问题速查表

Q1: 爬虫运行时提示"找不到模块"怎么办？

A: 这通常是依赖未正确安装导致的。尝试删除node_modules目录和package-lock.json文件，然后重新运行npm install。确保使用Node.js 16或更高版本。

Q2: 爬虫能抓取JavaScript动态生成的内容吗？

A: 可以。使用PlaywrightCrawler或PuppeteerCrawler，它们会启动真实浏览器渲染页面，能够获取所有动态生成的内容。相比之下，CheerioCrawler只能处理静态HTML。

Q3: 如何避免被网站封禁IP？

A: 主要有三种方法：1) 使用代理池轮换IP地址；2) 控制请求频率，添加随机延迟；3) 使用会话池管理 cookies 和用户代理。Crawlee内置了这些功能，只需在爬虫配置中启用即可。

Q4: 如何将抓取的数据导出为Excel或CSV格式？

A: 使用Crawlee的Dataset功能，在爬虫完成后调用await Dataset.exportToCSV('filename')即可将数据导出为CSV文件，该文件可直接用Excel打开。

Q5: 爬虫运行速度太慢，如何提高效率？

A: 可以通过以下方式优化：1) 增加并发请求数量（调整maxConcurrency）；2) 使用CheerioCrawler替代PlaywrightCrawler（如果目标网站是静态的）；3) 减少不必要的页面渲染和等待时间；4) 实现请求优先级，优先抓取重要页面。

总结与下一步学习

通过本文，你已经掌握了Crawlee的核心功能和使用方法，能够构建从简单到复杂的网页抓取项目。关键要点包括：

根据需求选择合适的爬虫引擎：静态页面用CheerioCrawler，动态页面用PlaywrightCrawler
使用Dataset存储和导出数据，支持多种格式
配置反屏蔽策略提高爬虫稳定性
通过Docker容器化实现便捷部署

下一步，你可以深入学习以下高级主题：

数据存储模块：了解Crawlee的数据存储机制
代理管理指南：高级代理配置和会话管理
并行爬取教程：提高大规模爬取效率

现在，你已经具备了使用Crawlee构建专业爬虫项目的能力。开始动手实践，探索网页数据的无限可能吧！

crawlee

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

10分钟掌握Crawlee网页抓取实战指南：从入门到项目部署

问题导入：现代网页抓取的四大挑战

动态内容加载障碍

反爬虫机制拦截

大规模爬取效率瓶颈

数据提取与存储复杂性

核心能力：Crawlee的三大技术优势

⚡ 多引擎渲染系统

CheerioCrawler：轻量级HTML解析引擎

PlaywrightCrawler：多浏览器自动化引擎

PuppeteerCrawler：Chrome专用自动化引擎

🔍 智能请求管理系统

📊 内置数据处理流程

场景化实践：从基础到进阶的爬虫开发

零基础环境配置指南

环境准备

项目创建

实战案例一：基础版网页信息提取器

功能需求

实现步骤

实战案例二：进阶版电商产品抓取器

功能需求

实现步骤

进阶拓展：从功能到部署的完整方案

动态网页抓取方案

处理无限滚动页面

等待动态内容加载

爬虫反屏蔽技巧

代理管理

用户行为模拟

部署与监控

Docker容器化部署

爬虫监控与调试

常见问题速查表

Q1: 爬虫运行时提示"找不到模块"怎么办？

Q2: 爬虫能抓取JavaScript动态生成的内容吗？

Q3: 如何避免被网站封禁IP？

Q4: 如何将抓取的数据导出为Excel或CSV格式？

Q5: 爬虫运行速度太慢，如何提高效率？

总结与下一步学习

相关内容推荐

热门内容推荐

最新内容推荐

项目优选