Crawlee项目中使用Puppeteer在Docker部署时的超时问题分析与解决

2025-05-12 03:06:01作者：薛曦旖Francesca

问题背景

在使用Crawlee 3.9.1进行内部文档爬取时，开发人员遇到了一个特殊的问题：当应用部署在基于apify/actor-node-puppeteer-chrome:20的Docker容器中并在AWS EKS上运行时，某些特定页面会出现导航超时错误。有趣的是，这个问题在本地开发环境（包括本地Docker环境）中完全不会出现，只有在生产环境部署时才会发生。

错误表现

系统会先显示警告信息：

WARN PuppeteerCrawler: Reclaiming failed request back to the list or queue. Navigation timed out after 60 seconds.

随后在重试达到最大次数后显示错误：

ERROR PuppeteerCrawler: Request failed and reached maximum retries. Navigation timed out after 60 seconds.

问题排查过程

初步尝试

开发人员尝试了多种方法来解决这个问题：

尝试不同的Docker镜像
测试不同版本的Puppeteer
调整浏览器版本
添加--disable-gpu标志但所有这些尝试都未能解决问题。

深入分析

当开发人员转而使用纯Puppeteer实现爬虫时，发现了类似的超时问题，但错误信息略有不同：

TimeoutError: Navigation timeout of 30000 ms exceeded

通过启用Puppeteer的调试模式(DEBUG="puppeteer:*")，发现了一个关键线索：系统在尝试加载Google字体资源时出现了超时：

Failed to load resource: net::ERR_TIMED_OUT

根本原因

问题源于以下几个因素的组合：

跨域资源加载：页面尝试加载Google字体等外部资源，这些请求可能受到了已设置cookie的影响
环境差异：生产环境的TCP keepalive超时设置可能比本地环境更长（某些Linux发行版默认设置为2小时）
请求拦截缺失：默认情况下没有对非目标域名的请求进行过滤

解决方案

方法一：禁用导航超时（临时方案）

page.setDefaultNavigationTimeout(0);

方法二：请求拦截（推荐方案）

page.setDefaultNavigationTimeout(0);
page.setRequestInterception(true);
page.on('request', req => {
    if(!req.isInterceptResolutionHandled()) {
        const url = new URL(req.url());
        if(url.hostname !== domain) {
            return req.abort();
        } else {
            return req.continue();
        }
    }
});