解析recipe-scrapers项目中README测试失败问题

2025-07-07 08:56:07作者：俞予舒Fleming

问题背景

在recipe-scrapers项目中，开发者ReneNulschDE在为新添加的AldiNord爬虫编写测试时遇到了一个有趣的问题。当他在README文件中添加多个次级域名时，test_readme测试会失败，而只添加一个次级域名时测试却能通过。

问题现象

开发者最初尝试在README文件中以下列格式添加多个AldiNord的次级域名：

- `https://aldi-nord.de/ <https://aldi-nord.de/>`_
    - `.es <https://aldi.es/>`_
    - `.lu <https://aldi.lu/>`_

对应的在__init__.py文件中注册了多个域名处理器：

AldiNord.host(): AldiNord,
AldiNord.host(domain="aldi.es"): AldiNord,
AldiNord.host(domain="aldi.lu"): AldiNord,

这种情况下运行测试会得到失败结果，提示"Missing top level domain(s) for primary domain aldi-nord.de"。

问题分析

经过项目维护者jayaddison的分析，这个问题与测试用例中parse_secondary_line函数的处理逻辑有关。测试用例期望次级域名的表示方式与主域名有特定的格式对应关系。

解决方案

维护者提出了两种可行的解决方案：

使用逗号分隔的列表形式：参考项目中hellofresh爬虫的写法，将多个次级域名放在同一行，用逗号分隔：

- `https://aldi-nord.de/ <https://aldi-nord.de/>`_
    - `.es <https://aldi.es/>`_, `.lu <https://aldi.lu/>`_

创建独立的子类：为每个次级域名创建独立的爬虫类，这些类可以继承自同一个基类：

class AldiES(AldiNord):
    pass

class AldiLU(AldiNord):
    pass

第一种方案被证明能够立即解决问题，而第二种方案提供了更结构化的代码组织方式，适合长期维护。

经验总结

这个问题揭示了测试用例与文档格式之间微妙的依赖关系。在开源项目中，这类问题很常见，特别是在自动化测试严格检查文档格式的情况下。开发者需要注意：

测试用例可能对文档格式有特定要求
项目中的现有实现可以作为参考模板
当遇到测试失败时，可以查看类似功能的实现方式
与项目维护者沟通可以帮助快速定位问题

这个案例也展示了良好的开源协作模式：开发者详细描述问题，维护者快速响应并提供解决方案，最终共同完善项目。

recipe-scrapers

Python package for scraping recipes data

项目地址：https://gitcode.com/gh_mirrors/re/recipe-scrapers

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

解析recipe-scrapers项目中README测试失败问题

问题背景

问题现象

问题分析

解决方案

经验总结

相关内容推荐

项目优选