首页
/ 探索网站结构,尽在WebPalm

探索网站结构,尽在WebPalm

2024-05-21 12:33:00作者:胡唯隽
webpalm
WebPalm is a powerful command-line tool for website mapping and web scraping. With its recursive approach, it can generate a complete tree of all webpages and their links on a website. It can also extract data from the body of each page using regular expressions, making it an ideal tool for web scraping and data extraction.

WebPalm Banner


WebPalm是什么?

WebPalm是一个命令行工具,专为用户设计,用于遍历网站并生成所有网页及其链接的树状结构图。它采用递归的方法进入每个找到的链接,并持续进行,直到探索完所有层级。

除了生成站点地图,WebPalm还能利用正则表达式从每个页面的主体中提取数据并将结果保存到文件中。这一特性对于网络抓取或特定信息的提取非常实用。

提示与免责声明:

此工具仅适用于合法用途,请对您的行为负责。

功能亮点

  • 生成网址树状结构:清晰地展示网站的层次结构。
  • 正文数据抽取:通过正则表达式从网页内容中提取所需信息。
  • 多线程处理:并行处理以提高速度和效率。
  • 导出多种格式:支持JSON、XML和TXT格式的数据导出。
  • 快速易用:简洁的命令行界面,一键操作。
  • 彩色输出与错误处理:提供良好的用户交互体验。

安装与使用

你可以直接从源代码编译或下载预编译的二进制文件进行安装。如果你已经安装了Go,也可以使用go install命令进行安装。

运行webpalm -h获取完整的命令行选项和帮助信息。

命令行示例

  • 获取一个网站的层级结构:

    webpalm -u https://google.com -l1
    
  • 并行处理(多线程):

    webpalm -u https://google.com -l1 -w 3
    
  • 忽略指定的状态码:

    webpalm -u https://google.com -l1 -x 404,500
    
  • 从网页中提取数据:

    webpalm -u https://google.com -l1 --regexes comments="\<\!--.*?-->" -o result.json
    
  • 导出结果至不同格式:

    webpalm -u https://google.com -l3 -o result.xml
    webpalm -u https://google.com -l2 -o result.txt
    
  • 只包含特定域名的网址:

    webpalm -u https://google.com -l2 -i google.com,facebook.com
    
  • 大规模并行处理:

    webpalm -u https://google.com -l2 -w 100
    

正则表达式应用

WebPalm提供了多种正则表达式示例,如电子邮件地址、注释和短令牌等。你可根据需求自定义正则表达式进行数据提取。

加入我们

WebPalm由Malwarize团队驱动,欢迎加入我们的Discord社区,分享你的想法和贡献代码。

Join to Discord

WebPalm以其强大的功能和易用性,是开发者、SEO专家和数据分析师的理想工具。无论是构建网站地图还是进行复杂的数据挖掘,WebPalm都能轻松应对。现在就尝试使用WebPalm,让网站探索变得更加高效和简单。

webpalm
WebPalm is a powerful command-line tool for website mapping and web scraping. With its recursive approach, it can generate a complete tree of all webpages and their links on a website. It can also extract data from the body of each page using regular expressions, making it an ideal tool for web scraping and data extraction.
热门项目推荐
相关项目推荐

项目优选

收起
CangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
672
0
RuoYi-Vue
🎉 基于SpringBoot,Spring Security,JWT,Vue & Element 的前后端分离权限管理系统,同时提供了 Vue3 的版本
Java
136
18
openHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
12
8
redis-sdk
仓颉语言实现的Redis客户端SDK。已适配仓颉0.53.4 Beta版本。接口设计兼容jedis接口语义,支持RESP2和RESP3协议,支持发布订阅模式,支持哨兵模式和集群模式。
Cangjie
322
26
advanced-java
Advanced-Java是一个Java进阶教程,适合用于学习Java高级特性和编程技巧。特点:内容深入、实例丰富、适合进阶学习。
JavaScript
75.83 K
19.04 K
qwerty-learner
为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers
TSX
15.56 K
1.44 K
Jpom
🚀简而轻的低侵入式在线构建、自动部署、日常运维、项目监控软件
Java
1.41 K
292
Yi-Coder
Yi Coder 编程模型,小而强大的编程助手
HTML
30
5
easy-es
Elasticsearch 国内Top1 elasticsearch搜索引擎框架es ORM框架,索引全自动智能托管,如丝般顺滑,与Mybatis-plus一致的API,屏蔽语言差异,开发者只需要会MySQL语法即可完成对Es的相关操作,零额外学习成本.底层采用RestHighLevelClient,兼具低码,易用,易拓展等特性,支持es独有的高亮,权重,分词,Geo,嵌套,父子类型等功能...
Java
1.42 K
231
taro
开放式跨端跨框架解决方案,支持使用 React/Vue/Nerv 等框架来开发微信/京东/百度/支付宝/字节跳动/ QQ 小程序/H5/React Native 等应用。 https://taro.zone/
TypeScript
35.34 K
4.77 K