Recipe-scrapers项目中Schema.org元数据解析的优化思路

2025-07-07 05:17:36作者：钟日瑜

在开源项目recipe-scrapers中，我们遇到了一个关于Schema.org元数据解析的典型问题。这个问题揭示了当前实现在处理复杂结构化数据时的局限性，特别是当网页中包含多个Recipe实体时的处理逻辑。

问题背景

在解析某些食谱网站时，我们发现Schema.org元数据中可能包含多个Recipe实体。以REWE网站为例，其页面中同时存在两种Recipe实体：

一个顶层Recipe实体，主要包含聚合评分信息
另一个嵌套在WebPage实体中的Recipe实体，包含完整的食谱信息

当前的实现逻辑会直接选择遇到的第一个Recipe实体作为数据源，这导致无法获取完整的食谱信息，特别是作者信息等重要字段。

技术分析

Schema.org规范允许通过@id属性标识同一实体的多个描述。当前实现存在以下技术局限性：

单点选择策略：代码在找到第一个Recipe实体后就立即返回，无法收集分散在多个实体中的完整信息
嵌套结构处理不足：对于WebPage.mainEntity这种常见嵌套模式支持不完整
数据合并逻辑缺失：缺乏基于@id标识符的实体合并机制

解决方案设计

我们提出了两种改进方案：

特定网站适配方案：针对REWE等特定网站实现定制解析逻辑
通用增强方案：改进SchemaOrg基类，使其能智能合并多个实体的信息

经过评估，我们选择了第二种方案作为长期解决方案，因为它具有更好的通用性和可维护性。

实现细节

核心改进点包括：

移除提前返回逻辑，允许收集所有相关实体的信息
引入基于@id的数据合并机制，确保同一实体的多个描述被正确合并
增强嵌套结构处理能力，特别是对WebPage.mainEntity等常见模式的支持
实现优先级策略，确保关键信息不被次要实体覆盖

技术价值

这种改进不仅解决了特定网站的问题，还提升了整个库处理复杂Schema.org标记的能力。它使得recipe-scrapers能够：

更全面地收集分散在多个实体中的食谱信息
正确处理现代网站常用的结构化数据标记模式
为未来可能出现的更复杂标记场景提供扩展基础

总结

通过对Schema.org解析逻辑的这次优化，recipe-scrapers项目在处理复杂结构化数据方面迈出了重要一步。这种改进展示了开源项目如何通过不断迭代解决实际问题，同时也为其他处理Schema.org数据的项目提供了有价值的参考。

recipe-scrapers

Python package for scraping recipes data

项目地址：https://gitcode.com/gh_mirrors/re/recipe-scrapers

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

271