crawler4j 技术文档

2024-12-24 04:55:02作者：凌朦慧Richard

1. 安装指南

使用 Maven 安装

在 pom.xml 文件中添加以下依赖：

<dependency>
    <groupId>edu.uci.ics</groupId>
    <artifactId>crawler4j</artifactId>
    <version>4.4.0</version>
</dependency>

使用 Gradle 安装

在 build.gradle 文件中添加以下依赖：

compile group: 'edu.uci.ics', name: 'crawler4j', version: '4.4.0'

2. 项目的使用说明

快速开始

要使用 crawler4j，首先需要创建一个继承自 WebCrawler 的爬虫类。这个类决定了哪些 URL 应该被爬取，并处理下载的页面。以下是一个简单的实现示例：

public class MyCrawler extends WebCrawler {

    private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|gif|jpg|png|mp3|mp4|zip|gz))$");

    @Override
    public boolean shouldVisit(Page referringPage, WebURL url) {
        String href = url.getURL().toLowerCase();
        return !FILTERS.matcher(href).matches() && href.startsWith("https://www.ics.uci.edu/");
    }

    @Override
    public void visit(Page page) {
        String url = page.getWebURL().getURL();
        System.out.println("URL: " + url);

        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String text = htmlParseData.getText();
            String html = htmlParseData.getHtml();
            Set<WebURL> links = htmlParseData.getOutgoingUrls();

            System.out.println("Text length: " + text.length());
            System.out.println("Html length: " + html.length());
            System.out.println("Number of outgoing links: " + links.size());
        }
    }
}

在这个示例中，shouldVisit 方法决定了哪些 URL 应该被爬取，而 visit 方法在页面被成功下载后调用，用于处理页面内容。

控制器类

还需要实现一个控制器类，用于指定爬取的种子 URL、存储中间爬取数据的文件夹以及并发线程的数量：

public class Controller {
    public static void main(String[] args) throws Exception {
        String crawlStorageFolder = "/data/crawl/root";
        int numberOfCrawlers = 7;

        CrawlConfig config = new CrawlConfig();
        config.setCrawlStorageFolder(crawlStorageFolder);

        PageFetcher pageFetcher = new PageFetcher(config);
        RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
        RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
        CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer);

        controller.addSeed("https://www.ics.uci.edu/~lopes/");
        controller.addSeed("https://www.ics.uci.edu/~welling/");
        controller.addSeed("https://www.ics.uci.edu/");

        CrawlController.WebCrawlerFactory<BasicCrawler> factory = MyCrawler::new;

        controller.start(factory, numberOfCrawlers);
    }
}

3. 项目API使用文档

`shouldVisit` 方法

shouldVisit 方法用于决定是否应该爬取给定的 URL。在示例中，该方法过滤掉了 .css、.js 和媒体文件，并且只允许爬取 www.ics.uci.edu 域名下的页面。

`visit` 方法

visit 方法在页面被成功下载后调用，可以获取页面的 URL、文本、链接、HTML 内容以及唯一 ID。

`CrawlConfig` 配置

CrawlConfig 类用于配置爬虫的行为，以下是一些常用的配置选项：

爬取深度：可以通过 setMaxDepthOfCrawling 方法设置最大爬取深度。
启用 SSL：通过 setIncludeHttpsPages(true) 启用 SSL。
最大页面数：通过 setMaxPagesToFetch 方法设置最大爬取页面数。
启用二进制内容爬取：通过 setIncludeBinaryContentInCrawling(true) 启用二进制内容爬取。
礼貌性延迟：通过 setPolitenessDelay 方法设置请求之间的最小延迟。
代理设置：通过 setProxyHost 和 setProxyPort 方法设置代理服务器。
可恢复爬取：通过 setResumableCrawling(true) 启用可恢复爬取。

4. 项目安装方式

Maven 安装

在 pom.xml 文件中添加以下依赖：

<dependency>
    <groupId>edu.uci.ics</groupId>
    <artifactId>crawler4j</artifactId>
    <version>4.4.0</version>
</dependency>

Gradle 安装

在 build.gradle 文件中添加以下依赖：

compile group: 'edu.uci.ics', name: 'crawler4j', version: '4.4.0'

通过以上步骤，您可以成功安装并使用 crawler4j 进行网页爬取。

crawler4j

Open Source Web Crawler for Java

项目地址：https://gitcode.com/gh_mirrors/cr/crawler4j

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

350

203

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

crawler4j 技术文档

1. 安装指南

使用 Maven 安装

使用 Gradle 安装

2. 项目的使用说明

快速开始

控制器类

3. 项目API使用文档

`shouldVisit` 方法

`visit` 方法

`CrawlConfig` 配置

4. 项目安装方式

Maven 安装

Gradle 安装

热门内容推荐

最新内容推荐

项目优选

crawler4j 技术文档

1. 安装指南

使用 Maven 安装

使用 Gradle 安装

2. 项目的使用说明

快速开始

控制器类

3. 项目API使用文档

shouldVisit 方法

visit 方法

CrawlConfig 配置

4. 项目安装方式

Maven 安装

Gradle 安装

相关内容推荐

热门内容推荐

最新内容推荐

项目优选

`shouldVisit` 方法

`visit` 方法

`CrawlConfig` 配置