从零开始使用WebScrapBook：高效完整的网页抓取与管理方案

2026-04-12 09:12:33作者：咎岭娴Homer

A browser extension that captures web pages to local device or backend server for future retrieval, organization, annotation, and edit. This project inherits from legacy Firefox add-on ScrapBook X.

项目地址：https://gitcode.com/gh_mirrors/we/webscrapbook

WebScrapBook是一款强大的浏览器扩展，能够帮助用户将网页完整抓取到本地设备或后端服务器，以便日后检索、组织、注释和编辑。作为ScrapBook X的继承者，它为用户提供了一站式的网页内容保存与管理解决方案，让你轻松留住有价值的网络信息。

一、功能概述：网页抓取与管理的全能工具

WebScrapBook核心价值在于提供完整的网页保存功能，不仅能捕获页面文本和图片，还支持注释添加、内容编辑和组织管理。无论是研究资料收集、灵感保存还是网页存档，它都能满足你的需求。通过浏览器扩展的形式，让网页抓取变得简单高效，无需复杂操作即可完成高质量的网页备份。

核心功能亮点

完整抓取：保存网页的全部内容，包括文本、图片、样式和脚本
注释编辑：支持添加文本注释和高亮标记，方便后续回顾
组织管理：通过树形结构整理保存的网页，快速分类和查找
本地存储：将网页数据安全存储在本地，保护隐私且访问迅速

二、核心组件：了解WebScrapBook的内部构造

📂 主要目录结构

WebScrapBook的项目结构清晰，主要包含以下关键目录：

src/：源代码目录，包含扩展的核心功能实现
src/core/：扩展的核心模块，处理后台逻辑和用户界面
src/capturer/：负责网页捕获功能的实现
src/scrapbook/：提供网页管理和组织功能
test/：包含测试用例和示例文件

🔧 关键文件介绍

src/core/background.js：后台脚本，负责监听浏览器事件和协调各项功能
src/core/content.js：内容脚本，在网页上下文中运行，处理用户交互和页面操作
src/manifest.json：扩展配置文件，定义扩展的基本信息和权限
src/core/options.html：设置页面，允许用户自定义扩展行为

🖥️ 界面预览

上图展示了WebScrapBook的主界面，左侧为保存的网页列表，中间是网页内容预览区，右侧显示了添加注释的功能示例。界面直观易用，让用户可以轻松管理和编辑保存的网页内容。

三、快速上手：安装与基本使用

安装步骤

克隆项目到本地：git clone https://gitcode.com/gh_mirrors/we/webscrapbook
打开浏览器的扩展管理界面
启用"开发者模式"
选择"加载已解压的扩展程序"
导航到克隆的webscrapbook目录并选择

基本操作流程

保存网页：浏览网页时，点击浏览器工具栏中的WebScrapBook图标，选择"保存当前页面"
添加注释：在保存的网页上选中文本，右键选择"添加注释"
组织内容：在扩展面板中，使用文件夹和标签对保存的网页进行分类
搜索内容：使用搜索框快速查找保存的网页

四、高级配置：自定义你的网页抓取体验

⚙️ 主要配置项说明

配置项	用途	示例值
scrapbook_dir	设置网页存储目录	./scrapbooks
format_default	设置默认保存格式	html
index_database	配置搜索索引数据库类型	sqlite
server	远程访问服务器地址	http://localhost:8080
sync	启用远程同步功能	true

配置方法

打开WebScrapBook的设置页面
切换到"高级"选项卡
根据需求修改配置参数
点击"保存"按钮应用更改
重启浏览器使配置生效

五、常见问题

Q: 保存的网页在哪里可以找到？

A: 默认情况下，网页保存在项目目录下的scrapbooks文件夹中。你可以在设置中修改存储路径。

Q: 如何导出保存的网页供其他设备使用？

A: 在扩展界面中，选中需要导出的网页或文件夹，右键选择"导出"，可以将内容保存为压缩文件，便于迁移和分享。

Q: 为什么有些网页保存不完整？

A: 部分网站可能采用动态加载或特殊的内容保护机制。你可以尝试使用"高级捕获"功能，或调整"捕获深度"设置来解决这个问题。

webscrapbook

A browser extension that captures web pages to local device or backend server for future retrieval, organization, annotation, and edit. This project inherits from legacy Firefox add-on ScrapBook X.

项目地址：https://gitcode.com/gh_mirrors/we/webscrapbook

登录后查看全文

从零开始使用WebScrapBook：高效完整的网页抓取与管理方案

一、功能概述：网页抓取与管理的全能工具

核心功能亮点

二、核心组件：了解WebScrapBook的内部构造

📂 主要目录结构

🔧 关键文件介绍

🖥️ 界面预览

三、快速上手：安装与基本使用

安装步骤

基本操作流程

四、高级配置：自定义你的网页抓取体验

⚙️ 主要配置项说明

配置方法

五、常见问题

Q: 保存的网页在哪里可以找到？

Q: 如何导出保存的网页供其他设备使用？

Q: 为什么有些网页保存不完整？

热门内容推荐

最新内容推荐

项目优选

从零开始使用WebScrapBook：高效完整的网页抓取与管理方案

一、功能概述：网页抓取与管理的全能工具

核心功能亮点

二、核心组件：了解WebScrapBook的内部构造

📂 主要目录结构

🔧 关键文件介绍

🖥️ 界面预览

三、快速上手：安装与基本使用

安装步骤

基本操作流程

四、高级配置：自定义你的网页抓取体验

⚙️ 主要配置项说明

配置方法

五、常见问题

Q: 保存的网页在哪里可以找到？

Q: 如何导出保存的网页供其他设备使用？

Q: 为什么有些网页保存不完整？

相关内容推荐

热门内容推荐

最新内容推荐

项目优选