使用Crawl4ai解决亚马逊商品列表爬取不全问题

2025-05-03 01:41:33作者：秋泉律Samson

在数据采集领域，动态加载内容的网页一直是爬虫开发者面临的挑战之一。本文将以亚马逊商品列表页为例，介绍如何利用Crawl4ai项目解决页面滚动加载内容无法完整抓取的问题。

问题背景

亚马逊的商品列表页采用了常见的"无限滚动"技术，当用户滚动到页面底部时，会自动加载更多商品。这种设计对用户体验很友好，但对爬虫开发者却带来了困扰。通过常规方法只能获取到初始加载的30个商品，而无法获取全部50个商品。

技术分析

问题的核心在于：

页面初始加载只显示部分内容
滚动触发JavaScript动态加载更多内容
爬虫需要模拟完整的用户滚动行为
需要给予足够的时间让内容加载完成

解决方案

Crawl4ai项目提供了基于Selenium的爬取策略，可以模拟用户滚动行为。以下是优化后的解决方案：

调整滚动速度：将滚动间隔从100ms增加到400ms，确保内容有足够时间加载
完整的滚动逻辑：先滚动到顶部，再滚动到底部，触发所有加载机制
延长等待时间：增加25秒的等待时间，确保所有异步内容加载完成
直接获取页面源码：使用driver.page_source而非result.html获取完整内容

实现代码

js_code = ["""
const scrollToTop = () => new Promise(resolve => {
    const scroll = () => {
        window.scrollBy(0, -100);
        if (window.scrollY === 0) {
            window.scrollTo(0, document.body.scrollHeight);
            resolve();
        } else {
            setTimeout(scroll, 400);
        }
    };
    scroll();
});
scrollToTop();
"""]

crawler_strategy = LocalSeleniumCrawlerStrategy(verbose=True, headless=False, js_code=js_code)
crawler = WebCrawler(verbose=True, crawler_strategy=crawler_strategy)
crawler.warmup()
result = crawler.run(
    crawler_strategy=crawler_strategy,
    url="亚马逊商品列表URL",
    css_selector='#gridItemRoot',
    screenshot=False,
    bypass_cache=True
)

time.sleep(25)
soup = BeautifulSoup(crawler.crawler_strategy.driver.page_source, 'html.parser')