Kimurai 框架使用教程

2024-08-27 12:21:30作者：韦蓉瑛

Write web scrapers in Ruby using a clean, AI-assisted DSL. Kimurai uses AI to figure out where the data lives, then caches the selectors and scrapes with pure Ruby. Get the intelligence of an LLM without the per-request latency or token costs.

项目地址：https://gitcode.com/gh_mirrors/ki/kimuraframework

项目介绍

Kimurai 是一个现代的基于 Ruby 编写的网络抓取框架。它设计用于无缝地工作在 Headless Chromium 或 Firefox、PhantomJS 环境中，支持简单的 HTTP 请求，并能够处理和交互JavaScript渲染的网站。该项目提供了强大的工具来构建高效、灵活的爬虫程序，适合那些寻求高度定制化和对现代Web结构进行深入挖掘的开发者。Kimurai 在 GitHub 上的地址为：https://github.com/vifreefly/kimuraframework。

项目快速启动

要快速启动 Kimurai，首先确保你的系统满足最低的 Ruby 版本要求（≥2.5.0）。如果你使用的是 Ubuntu 18.04，可以按照以下步骤安装 Ruby 和 Kimurai：

安装必要的包:

sudo apt update
sudo apt install git-core curl zlib1g-dev build-essential libssl-dev libreadline-dev \
    libyaml-dev libxml2-dev libxslt1-dev libcurl4-openssl-dev libffi-dev

安装 rbenv 和 ruby-build:

git clone https://github.com/rbenv/rbenv.git ~/.rbenv
echo 'export PATH="$HOME/.rbenv/bin:$PATH"' >> ~/.bashrc
echo 'eval "$(rbenv init -)"' >> ~/.bashrc
exec $SHELL

git clone https://github.com/rbenv/ruby-build.git ~/.rbenv/plugins/ruby-build

安装完成后，选择并安装一个兼容的 Ruby 版本，例如 Ruby 2.5.0+。

安装 Kimurai: 首先通过 gem install kimurai 命令安装 Kimurai 及其依赖项。

创建并运行第一个蜘蛛(Spider): 创建一个新的文件，如 example_spider.rb，并将以下代码放入该文件：

require 'kimurai'

class ExampleSpider < Kimurai::Base
  @name = "example_spider"
  @engine = :mechanize
  @start_urls = ["http://example.com"]

  def parse(response)
    title = response.xpath('//title').text.squish
    # 根据需求处理数据
  end
end

ExampleSpider.crawl!

运行此脚本以执行你的首个 Kimurai 爬虫。

应用案例和最佳实践

集成到现有应用：Kimurai 的蜘蛛可以直接整合进你的 Rails 或 Sinatra 应用中，利用后台作业（如 Sidekiq）管理爬虫任务。
异步处理：利用多线程或多进程特性提高爬取速度，确保优雅地处理请求限制和异常。
数据持久化：爬取的数据应考虑存储策略，比如使用数据库（MySQL、PostgreSQL 或 MongoDB），并且 Kimurai 提供了相应的客户端设置。

典型生态项目

虽然 Kimurai 本身作为一个独立的框架提供了丰富的功能，其生态系统包括但不限于自定义中间件、数据处理库、以及与数据分析工具的集成。开发人员通常结合使用 ActiveRecord (或同类ORM) 来存储抓取数据，或者通过 Elasticsearch 等搜索引擎来索引数据，以便于后续分析和检索。

请注意，为了保持最佳性能和合规性，务必遵循目标网站的 robots.txt 规则，并合理控制请求频率，避免给目标服务器造成不必要的负担。

以上便是 Kimurai 的基本教程，希望这能帮助你快速上手并有效地利用这个强大的网络抓取框架。

kimuraframework

项目地址：https://gitcode.com/gh_mirrors/ki/kimuraframework

登录后查看全文