在Crawl4ai中追踪异步请求的原始URL和最终URL

2025-05-02 12:40:21作者：伍希望

概述

在使用Crawl4ai进行网页爬取时，开发者经常需要追踪网页重定向过程中的原始URL和最终URL。这对于分析301/302跳转、监控链接行为等场景非常重要。本文将详细介绍如何在Crawl4ai框架中实现这一功能。

核心原理

Crawl4ai提供了强大的钩子(Hook)机制，允许开发者在爬取过程的不同阶段插入自定义逻辑。通过合理使用这些钩子，我们可以轻松追踪URL的变化过程。

实现方法

方法一：使用钩子传递元数据

设置钩子函数：首先需要定义两个钩子函数，分别用于处理导航前和导航后的逻辑。

async def before_goto_hook(page, context=None, **kwargs):
    # 从kwargs中获取原始URL
    original_url = kwargs.get("original_url")
    print(f"开始处理URL: {original_url}")

async def after_goto_hook(page, context=None, **kwargs):
    original_url = kwargs.get("original_url")
    final_url = page.url  # 获取最终URL
    print(f"URL跳转完成 - 原始: {original_url}, 最终: {final_url}")

注册钩子：将定义好的钩子函数注册到爬虫策略中。

crawler_strategy.set_hook('before_goto', before_goto_hook)
crawler_strategy.set_hook('after_goto', after_goto_hook)

执行爬取：在调用爬取方法时传递原始URL作为参数。

await crawler_strategy.execute_hook('before_goto', 
                                   page, 
                                   context=context, 
                                   original_url="http://example.com")
await page.goto("http://example.com")
await crawler_strategy.execute_hook('after_goto', 
                                   page, 
                                   context=context, 
                                   original_url="http://example.com")

方法二：使用会话ID管理状态

对于更复杂的场景，可以使用会话ID来管理每个URL的状态。

# 创建新会话
session_id = await crawler.create_session()

# 执行爬取并传递回调函数
result = await crawler.arun(
    url=original_url,
    session_id=session_id,
    before_goto=lambda page: store_original_url(page, original_url),
    after_goto=lambda page: store_final_url(page, page.url)
)