Spider-RS 爬虫队列链接处理问题解析

2025-07-09 21:49:05作者：郜逊炳

Low latency web data collector

项目地址：https://gitcode.com/gh_mirrors/spide/spider

问题现象

在使用 Spider-RS 爬虫框架时，开发者遇到了一个奇怪的现象：当尝试通过队列机制添加多个初始URL时，只有第一个URL被成功爬取，后续通过队列发送的URL被完全忽略。这个问题在特定条件下出现，特别是在初始页面已经发现链接的情况下，或者可能存在某种竞态条件。

问题复现

通过以下代码可以复现该问题：

let urls = [
    "https://wikipedia.org",
    "https://google.com",
    "https://facebook.com",
];
let mut website = Website::new(urls[0])
    .with_depth(2)
    .with_limit(10)
    .with_external_domains(Some([String::from("*")].into_iter()))
    .with_blacklist_url(Some(vec![
        "wik".into()
    ]))
    .build()
    .unwrap();

// 订阅和队列初始化代码...

问题根源

经过深入分析，发现问题出在爬虫初始化流程中的时序问题上。具体来说：

_crawl_establish 方法在订阅队列之前就被调用
任何在订阅调用之前发送到队列的链接都不会被接收器看到
这导致了一个竞态条件：爬虫订阅队列和页面订阅者接收页面然后发送链接之间的竞争

解决方案

框架维护者在版本 2.27.43 中修复了这个问题，主要改动包括：

将队列订阅操作 q.0.subscribe() 移到 _crawl_establish 之前调用
确保链接发送和接收的顺序正确性

使用建议

对于需要在爬虫启动前添加初始URL的情况，开发者应该注意：

使用 set_extra_links 方法来预先设置需要爬取的链接
避免依赖队列机制来传递初始URL
如果必须使用队列，确保订阅操作在所有发送操作之前完成

技术启示

这个案例展示了在异步编程中时序控制的重要性。特别是在消息队列和订阅模式中，订阅者和发布者的初始化顺序往往决定了消息能否被正确处理。开发者在设计类似系统时，应该特别注意：

组件初始化的顺序
消息传递的可靠性保证
竞态条件的预防和处理

通过这个问题的分析和解决，不仅修复了框架的一个bug，也为使用者提供了更好的异步编程实践参考。

Low latency web data collector

项目地址：https://gitcode.com/gh_mirrors/spide/spider

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。