crawl4ai 项目中的网页数据提取策略类型化方案

2025-05-03 20:37:27作者：薛曦旖Francesca

在网页爬取和数据提取领域，crawl4ai 项目提供了一个强大的 JsonCssExtractionStrategy 工具，它允许开发者通过 CSS 选择器从网页中提取结构化数据。然而，当前版本存在一个明显的痛点：提取策略的 schema 定义缺乏明确的类型提示，导致开发者需要频繁查阅源代码才能理解可用的选项和配置方式。

问题背景

JsonCssExtractionStrategy 的核心功能是通过定义 schema 来指定如何从网页中提取数据。这个 schema 本质上是一个复杂的字典结构，包含了各种配置选项。由于当前实现使用 Dict[str, Any] 作为类型提示，开发者面临以下挑战：

难以通过 IDE 的自动补全功能发现可用选项
缺乏对参数类型的静态检查
文档不完整，部分功能未被明确记录
配置错误只能在运行时被发现

类型化解决方案

为了解决这些问题，我们可以引入一套类型化的数据模型，通过 Python 的 dataclass 和枚举类型来明确定义提取策略的 schema 结构。这套方案包含以下几个核心组件：

选择器类型枚举

首先定义所有支持的选择器类型，使用枚举确保类型安全：

class SelectorType(str, Enum):
    TEXT = "text"        # 提取元素文本
    LIST = "list"        # 提取元素列表
    NESTED = "nested"    # 嵌套对象
    NESTED_LIST = "nested_list"  # 嵌套对象列表
    ATTRIBUTE = "attribute"  # 提取元素属性
    HTML = "html"        # 提取元素HTML
    REGEX = "regex"      # 使用正则表达式提取
    COMPUTED = "computed"  # 计算字段

基础字段模型

所有字段类型都继承自一个基础模型，包含公共属性：

@dataclass(kw_only=True)
class BaseField:
    name: str            # 字段名称
    type: SelectorType = field(init=False)  # 选择器类型
    
    default: Optional[Any] = None    # 默认值
    selector: Optional[str] = None  # CSS选择器
    transform: Optional[Transform] = None  # 转换操作

具体字段类型

针对每种选择器类型，定义具体的字段模型：

文本字段 - 提取元素文本内容
HTML字段 - 提取元素完整HTML
属性字段 - 提取元素特定属性
正则字段 - 使用正则表达式匹配内容
计算字段 - 通过表达式或函数计算值
列表字段 - 提取重复元素的列表
嵌套字段 - 提取嵌套对象
嵌套列表字段 - 提取嵌套对象列表

Schema 主模型

将所有字段组合成完整的 schema 定义：

@dataclass(kw_only=True)
class Schema:
    name: str            # Schema名称
    baseSelector: str     # 基础CSS选择器
    fields: List[Union[TextField, HtmlField, ...]]  # 字段列表

实际应用示例

这种类型化方案在实际应用中能显著提升开发体验：

# 定义schema
schema = Schema(
    name="房产详情",
    baseSelector="#property-detail",
    fields=[
        TextField(name="title", selector="h1"),
        AttributeField(name="image", selector=".main-image", attribute="src"),
        NestedField(
            name="agent",
            selector=".agent-info",
            fields=[
                TextField(name="name", selector="h3"),
                TextField(name="phone", selector=".phone"),
            ]
        ),
        ListField(
            name="features",
            selector=".features li",
            fields=[TextField(name="feature")]
        )
    ]
)

# 转换为字典供JsonCssExtractionStrategy使用
extraction_strategy = JsonCssExtractionStrategy(schema.to_dict())