Crawlee项目实战：处理无链接的动态页面爬取难题

2025-05-12 12:49:49作者：毕习沙Eudora

Crawlee—A web scraping and browser automation library for Node.js to build reliable crawlers. In JavaScript and TypeScript. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. With proxy rotation.

项目地址：https://gitcode.com/GitHub_Trending/cr/crawlee

在Web爬取领域，我们经常会遇到一些特殊页面结构带来的挑战。本文将以Crawlee项目为例，深入探讨如何处理那些没有传统<a>标签链接的现代动态网页。

问题背景

现代Web开发中，越来越多的网站采用JavaScript动态渲染内容，传统的HTML链接(<a>标签)被各种自定义元素和事件处理器所取代。这种设计模式给爬虫开发带来了新的挑战，因为常规的链接提取方法在这些页面上会失效。

案例分析

以某职业网站为例，其职位列表页面采用了完全动态的交互方式：

所有职位卡片都是<div>元素
点击事件通过JavaScript处理
职位详情通过新标签页打开
数据实际上来自GraphQL API

传统方法尝试

使用Crawlee的常规爬取方法会遇到以下问题：

enqueueLinks方法无法找到可提取的链接
enqueueLinksByClickingElements方法因页面特殊的标签页管理机制而失效

创新解决方案

通过深入分析页面行为，我们发现数据实际上是通过XHR请求从GraphQL接口获取的。基于这一发现，可以采取以下策略：

拦截API请求：使用Playwright的page.route()方法捕获特定的GraphQL请求
识别关键请求：通过请求头中的特定标识过滤出包含职位数据的请求
解析响应数据：从API响应中提取所有职位ID
构造有效URL：将职位ID转换为完整的职位详情页URL
批量入队：使用enqueueLinks方法将这些URL加入爬取队列

技术实现要点

// 在preNavigationHooks中设置请求拦截
preNavigationHooks: [async ({ page, sendRequest, enqueueLinks, request: pageRequest }) => {
    if(pageRequest.url !== '目标网站URL') return;
    
    await page.route('GraphQL接口URL', async route => {
        const request = await route.request();
        
        if(request.headers()['特定请求头标识'] === '关键请求名称') {
            const data = await sendRequest({ 
                // 重新构造请求参数
            }).then(x => x.body)
            
            const 职位列表 = JSON.parse(data).data.职位搜索;
            
            await enqueueLinks({
                urls: 职位列表.map(x => new URL(x.id, '基础URL').toString()), 
            });
        }
        
        await route.continue();
    })
}]