使用指南：Facebook 爬虫 Selenium 版本

2024-08-26 00:13:10作者：柏廷章Berta

1. 项目目录结构及介绍

此开源项目，位于 GitHub，采用了层级化的目录结构以维护代码的整洁性。以下是主要的目录组成部分：

scraper.py 这是项目的启动脚本，它允许用户通过命令行界面来指定想要爬取的数据类型和范围。用户可以通过传入不同的参数来定制爬取行为，例如指定页面、群组以及爬取的帖子深度等。基本用法如下：
```
python scraper.py [-h] [--pages PAGES [PAGES]] [--groups GROUPS [GROUPS]] [-d DEPTH]
```
其中：
- -h 或 --help 显示帮助消息并退出。
- --pages PAGES [PAGES] 用于指定想要爬取的页面名。
- --groups GROUPS [GROUPS] 用于指定爬取的群组ID或名称。
- -d DEPTH 定义了爬取帖子的数量，以大约每8篇帖子为一个单位递增。

credentials.txt 此文件是项目的配置关键，它不是传统意义上的配置文件，但对运行至关重要。你需要在这里放置你的Facebook登录凭据，格式简单明了，只需两行：
- 第一行：你的Facebook邮箱地址。
- 第二行：对应的密码。
请注意，出于安全考虑，在生产环境中存放明文密码不是一个好习惯，但在个人实验项目中可能是快速上手的方式。为了提升安全性，考虑使用环境变量或其他加密方式管理敏感信息。

以上就是关于Facebook 爬虫 Selenium 版本的基础使用介绍，包括其目录结构、启动脚本的使用以及必要的配置设置。在实际应用前，请确保遵守Facebook的服务条款，并且理解自动化脚本可能违反平台政策的风险。

登录后查看全文