首页
/ 探索强大的Web数据抓取解决方案:Got Scraping

探索强大的Web数据抓取解决方案:Got Scraping

2024-05-20 14:09:42作者:卓艾滢Kingsley

Got Scraping 是一款基于流行的 got 扩展库的高效工具,专为实现浏览器类似的请求而设计。这款小型但功能强大的模块为Web抓取领域提供了一种无缝融入网站流量的方式。

安装与升级

安装 Got Scraping 非常简单,只需要一条命令:

$ npm install got-scraping

请注意,由于 Got Scraping 现在仅支持 ESM(ES 模块),你需要使用 import 表达式或 import() 方法来导入它。如果你无法迁移至 ESM,可以在异步上下文中导入 Got Scraping。

功能强大且灵活的API

Got Scraping 使用 got.extend(...) 功能构建,因此具备 got 库的所有特性。下面是一个简单的示例:

import { gotScraping } from 'got-scraping';

gotScraping
    .get('https://apify.com')
    .then( ({ body }) => console.log(body));

你可以通过设置 proxyUrl、启用 useHeaderGenerator 或调整 headerGeneratorOptions 来定制请求行为。

浏览器级别的头信息模拟

借助内置的 header-generator 包,你可以选择各种不同的浏览器、操作系统和设备,它会自动生成浏览器般的头部信息。例如,你可以指定特定的浏览器版本和设备类型:

const response = await gotScraping({
    url: 'https://api.apify.com/v2/browser-info',
    headerGeneratorOptions:{
        browsers: [
            {
                name: 'chrome',
                minVersion: 87,
                maxVersion: 89
            }
        ],
        devices: ['desktop'],
        locales: ['de-DE', 'en-US'],
        operatingSystems: ['windows', 'linux'],
    }
});

代理服务器和协议处理

配置代理服务器只需一个 proxyUrl 参数,Got Scraping 将自动检测并适配支持的HTTP协议,并执行ALPN协商以连接最终服务器。它还支持HTTP/2协议,确保与现代浏览器保持一致。

项目特点

  1. 浏览器头信息模拟:生成多种浏览器和设备的头信息,模拟真实浏览器访问。
  2. 智能代理管理:轻松设置代理服务器,支持HTTP/HTTPS和HTTP/2。
  3. 自动HTTP版本协商:采用与浏览器相同的HTTP/2协议进行通信。
  4. TLS配置优化:适应网站的TLS指纹检测,提高匿名性。

实际应用

Got Scraping 可广泛应用于数据挖掘、市场研究、竞争情报等领域,它可以获取网站上的结构化和非结构化信息,如产品详情、新闻动态、评论等。对于那些要求复杂头信息或者需要经过代理服务器访问的网页,Got Scraping 提供了高效的解决方案。

无论是想要抓取网页内容,还是需要进行JSON请求,Got Scraping 都能应对自如。同时,遇到某些特殊情况,如错误恢复,也提供了相应的处理策略。

为了获得更详细的使用指南和技术文档,请查阅 官方GitHub页面,开始你的Web抓取旅程吧!

[官方GitHub页面]: https://github.com/apify/got-scraping
热门项目推荐

项目优选

收起
Python-100-DaysPython-100-Days
Python - 100天从新手到大师
Python
266
55
国产编程语言蓝皮书国产编程语言蓝皮书
《国产编程语言蓝皮书》-编委会工作区
65
17
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
196
45
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
53
44
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
268
69
qwerty-learnerqwerty-learner
为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers
TSX
333
27
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
896
0
advanced-javaadvanced-java
Advanced-Java是一个Java进阶教程,适合用于学习Java高级特性和编程技巧。特点:内容深入、实例丰富、适合进阶学习。
JavaScript
419
108
MateChatMateChat
前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。 官网地址:https://matechat.gitcode.com
144
24
HarmonyOS-Cangjie-CasesHarmonyOS-Cangjie-Cases
参考 HarmonyOS-Cases/Cases,提供仓颉开发鸿蒙 NEXT 应用的案例集
Cangjie
58
4