ScrapeGraphAI 爬取动态加载页面时的数据提取优化

2025-05-11 16:20:45作者：柏廷章Berta

问题背景

在使用ScrapeGraphAI的SmartScraperGraph功能爬取Aliexpress商品搜索页面时，开发者遇到了一个常见问题：页面实际显示60个商品，但爬虫仅能获取到前10个商品的数据。这种情况通常是由于网页采用了动态加载技术（懒加载或无限滚动）导致的。

技术分析

动态加载是现代网页常见的优化技术，特别是电商平台。当用户滚动页面时，JavaScript会异步请求并加载更多内容，而不是一次性加载所有数据。传统的爬虫工具如果直接获取初始HTML，往往只能获取首屏渲染的内容。

ScrapeGraphAI默认使用Selenium作为浏览器自动化工具，理论上应该能够处理动态内容。但实际使用中，我们发现需要针对特定场景进行优化配置。

解决方案

1. 调整Selenium配置参数

通过修改graph_config配置，可以优化爬取效果：

graph_config = {
    "llm": {
        "api_key": "YOUR_KEY",
        "model": "openai/gpt-4o-mini",
    },
    "library": "selenium",
    "verbose": True,
    "headless": False,  # 设置为False以便观察浏览器行为
    "slow_mo": 1000,    # 添加操作间隔时间(毫秒)
    "page_load_delay": 5  # 页面加载等待时间(秒)
}

关键参数说明：

headless: False：让浏览器可视化运行，便于调试
slow_mo：控制Selenium操作之间的间隔时间
page_load_delay：页面加载完成后的额外等待时间

2. 实现页面滚动加载

对于需要滚动加载的页面，可以扩展功能实现自动滚动：

from selenium.webdriver.common.keys import Keys

def scroll_page(driver, scroll_pause=2, max_scroll=5):
    last_height = driver.execute_script("return document.body.scrollHeight")
    scroll_count = 0
    
    while scroll_count < max_scroll:
        driver.find_element_by_tag_name('body').send_keys(Keys.END)
        time.sleep(scroll_pause)
        new_height = driver.execute_script("return document.body.scrollHeight")
        
        if new_height == last_height:
            break
            
        last_height = new_height
        scroll_count += 1

3. 结合两种方法的完整实现

将滚动功能集成到SmartScraperGraph中：

from scrapegraphai.graphs import SmartScraperGraph
from selenium import webdriver
import time

class EnhancedSmartScraper(SmartScraperGraph):
    def _get_page_content(self, url):
        driver = webdriver.Chrome()
        try:
            driver.get(url)
            time.sleep(5)  # 初始加载等待
            
            # 执行滚动加载
            scroll_page(driver)
            
            return driver.page_source
        finally:
            driver.quit()