Spidr 技术文档

2024-12-23 08:15:46作者：柯茵沙

A versatile Ruby web spidering library that can spider a site, multiple domains, certain links or infinitely. Spidr is designed to be fast and easy to use.

项目地址：https://gitcode.com/gh_mirrors/sp/spidr

本文档旨在帮助用户安装、使用和理解 Spidr 项目，一个功能丰富的 Ruby 网络爬虫库。

1. 安装指南

在开始使用 Spidr 之前，请确保您的系统中已经安装了 Ruby，版本要求为 2.0.0 或以上。同时，您还需要安装 Nokogiri gem。

安装 Spidr 的步骤如下：

$ gem install spidr

确保安装成功后，您可以在 Ruby 环境中引入 Spidr 库，并进行使用。

2. 项目使用说明

Spidr 允许用户以多种方式爬取网站内容，包括单个页面、主机、域和子域。以下是一些基本的使用示例：

从一个 URL 开始爬取：

Spidr.start_at('http://tenderlovemaking.com/') do |agent|
  # 在这里编写您的代码
end

爬取一个主机：

Spidr.host('solnic.eu') do |agent|
  # 在这里编写您的代码
end

爬取一个域（包括子域）：

Spidr.domain('ruby-lang.org') do |agent|
  # 在这里编写您的代码
end

爬取一个网站：

Spidr.site('http://www.rubyflow.com/') do |agent|
  # 在这里编写您的代码
end

忽略特定链接：

Spidr.site('http://company.com/', ignore_links: [%{^/blog/}]) do |agent|
  # 在这里编写您的代码
end

忽略特定端口的链接：

Spidr.site('http://company.com/', ignore_ports: [8000, 8010, 8080]) do |agent|
  # 在这里编写您的代码
end

忽略 robots.txt 中指定的链接：

Spidr.site('http://company.com/', robots: true) do |agent|
  # 在这里编写您的代码
end

更多高级用法和示例，请参考项目的 README 文件。

3. 项目 API 使用文档

Spidr 提供了丰富的回调和方法，以便于用户自定义爬取行为。以下是一些常用的 API 方法：

every_url：对每个访问的 URL 执行代码块。

Spidr.site('http://www.rubyinside.com/') do |spider|
  spider.every_url { |url| puts url }
end

every_link：对每个发现的链接执行代码块。

url_map = Hash.new { |hash,key| hash[key] = [] }

Spidr.site('http://intranet.com/') do |spider|
  spider.every_link do |origin,dest|
    url_map[dest] << origin
  end
end

every_failed_url：对每个失败的 URL 执行代码块。

Spidr.site('http://company.com/') do |spider|
  spider.every_failed_url { |url| puts url }
end

every_page：对每个访问的页面执行代码块。

Spidr.site('http://company.com/') do |spider|
  spider.every_page do |page|
    puts ">>> #{page.url}"
    # 其他处理
  end
end

every_html_page：对每个 HTML 页面执行代码块。

Spidr.site('https://www.ruby-lang.org/') do |spider|
  spider.every_html_page do |page|
    puts page.title
  end
end

every_redirect_page：对每个重定向页面执行代码块。

Spidr.host('company.com') do |spider|
  spider.every_redirect_page do |page|
    puts "#{page.url} -> #{page.headers['Location']}"
  end
end

更多 API 方法和详细说明，请参考项目的官方文档。

4. 项目安装方式

Spidr 可以通过 Ruby 的包管理工具 gem 进行安装。确保您的系统中已经安装了 Ruby 和 gem，然后执行以下命令：

$ gem install spidr

在安装成功后，您可以通过 require 'spidr' 在您的 Ruby 脚本中引入 Spidr 库，并开始使用它进行网络爬取。

A versatile Ruby web spidering library that can spider a site, multiple domains, certain links or infinitely. Spidr is designed to be fast and easy to use.

项目地址：https://gitcode.com/gh_mirrors/sp/spidr

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统