首页
/ 探索强大的Web数据抓取解决方案:Got Scraping

探索强大的Web数据抓取解决方案:Got Scraping

2024-05-20 14:09:42作者:卓艾滢Kingsley

Got Scraping 是一款基于流行的 got 扩展库的高效工具,专为实现浏览器类似的请求而设计。这款小型但功能强大的模块为Web抓取领域提供了一种无缝融入网站流量的方式。

安装与升级

安装 Got Scraping 非常简单,只需要一条命令:

$ npm install got-scraping

请注意,由于 Got Scraping 现在仅支持 ESM(ES 模块),你需要使用 import 表达式或 import() 方法来导入它。如果你无法迁移至 ESM,可以在异步上下文中导入 Got Scraping。

功能强大且灵活的API

Got Scraping 使用 got.extend(...) 功能构建,因此具备 got 库的所有特性。下面是一个简单的示例:

import { gotScraping } from 'got-scraping';

gotScraping
    .get('https://apify.com')
    .then( ({ body }) => console.log(body));

你可以通过设置 proxyUrl、启用 useHeaderGenerator 或调整 headerGeneratorOptions 来定制请求行为。

浏览器级别的头信息模拟

借助内置的 header-generator 包,你可以选择各种不同的浏览器、操作系统和设备,它会自动生成浏览器般的头部信息。例如,你可以指定特定的浏览器版本和设备类型:

const response = await gotScraping({
    url: 'https://api.apify.com/v2/browser-info',
    headerGeneratorOptions:{
        browsers: [
            {
                name: 'chrome',
                minVersion: 87,
                maxVersion: 89
            }
        ],
        devices: ['desktop'],
        locales: ['de-DE', 'en-US'],
        operatingSystems: ['windows', 'linux'],
    }
});

代理服务器和协议处理

配置代理服务器只需一个 proxyUrl 参数,Got Scraping 将自动检测并适配支持的HTTP协议,并执行ALPN协商以连接最终服务器。它还支持HTTP/2协议,确保与现代浏览器保持一致。

项目特点

  1. 浏览器头信息模拟:生成多种浏览器和设备的头信息,模拟真实浏览器访问。
  2. 智能代理管理:轻松设置代理服务器,支持HTTP/HTTPS和HTTP/2。
  3. 自动HTTP版本协商:采用与浏览器相同的HTTP/2协议进行通信。
  4. TLS配置优化:适应网站的TLS指纹检测,提高匿名性。

实际应用

Got Scraping 可广泛应用于数据挖掘、市场研究、竞争情报等领域,它可以获取网站上的结构化和非结构化信息,如产品详情、新闻动态、评论等。对于那些要求复杂头信息或者需要经过代理服务器访问的网页,Got Scraping 提供了高效的解决方案。

无论是想要抓取网页内容,还是需要进行JSON请求,Got Scraping 都能应对自如。同时,遇到某些特殊情况,如错误恢复,也提供了相应的处理策略。

为了获得更详细的使用指南和技术文档,请查阅 官方GitHub页面,开始你的Web抓取旅程吧!

[官方GitHub页面]: https://github.com/apify/got-scraping
登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
27
11
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
470
3.48 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
10
1
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
65
19
flutter_flutterflutter_flutter
暂无简介
Dart
718
172
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
23
0
kernelkernel
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
209
84
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.27 K
695
rainbondrainbond
无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
15
1
apintoapinto
基于golang开发的网关。具有各种插件,可以自行扩展,即插即用。此外,它可以快速帮助企业管理API服务,提高API服务的稳定性和安全性。
Go
22
1