使用Crawl4AI与Streamlit实现网页内容抓取与展示

2025-05-02 19:26:49作者：毕习沙Eudora

在当今数据驱动的时代，如何高效地从网页中提取结构化内容并将其可视化展示，是许多开发者面临的挑战。本文将介绍如何利用Crawl4AI这一强大的网页抓取工具与Streamlit这一流行的Python可视化框架，构建一个完整的网页内容抓取与展示系统。

系统架构概述

该系统主要由三个核心模块组成：

网页抓取模块：基于Crawl4AI实现，负责从目标网站抓取内容
内容处理模块：对抓取的内容进行过滤和转换
可视化展示模块：通过Streamlit构建用户界面并展示结果

关键技术实现

1. 网页内容抓取

Crawl4AI提供了强大的异步抓取能力，通过AsyncWebCrawler类可以实现高效的并发抓取。系统支持两种URL发现方式：

站点地图(sitemap.xml)解析：优先尝试从标准站点地图文件中提取URL
内部链接爬取：当站点地图不可用时，自动转为解析页面内的所有内部链接

async def discover_urls(base_url):
    sitemap_url = f"{base_url}/sitemap.xml"
    sitemap_links = await extract_urls_from_sitemap(sitemap_url)
    
    if not sitemap_links:
        sitemap_links = extract_internal_links(base_url)
    return sitemap_links

2. 内容处理与优化

抓取到的网页内容需要经过多步处理：

内容过滤：使用PruningContentFilter去除低质量内容
Markdown转换：通过DefaultMarkdownGenerator将HTML转换为易读的Markdown格式
内存管理：MemoryAdaptiveDispatcher确保系统在高负载下稳定运行

def create_pruning_filter():
    return PruningContentFilter(
        threshold=0.1,
        threshold_type="dynamic",
        min_word_threshold=5
    )

3. 用户交互界面

Streamlit提供了简洁的API来构建交互式界面：

URL输入框：用户输入目标网站地址
URL范围选择：支持灵活选择要处理的页面范围
结果展示：并排显示原始和过滤后的Markdown内容
下载功能：提供一键下载转换结果的功能

base_url = st.text_input("Enter the base URL to fetch content from", "")
selected_range = st.text_input("Enter URL range to process (e.g., 1-3, 5, 7-9):", "")