如何用XiaohongshuSpider爬取小红书数据？超详细小白教程

2026-02-05 04:25:39作者：董斯意

XiaohongshuSpider是一款功能强大的小红书爬取工具，能帮助用户轻松获取小红书平台的图片等数据。本文将为你详细介绍这个项目的使用方法，让你快速上手，高效爬取所需内容。

1. 项目目录结构及介绍

XiaohongshuSpider项目结构清晰，主要包含以下文件和文件夹：

app_appium.py：使用Appium进行自动化操作的Python脚本，用于模拟登录小红书应用、刷新页面等操作。
app_mitmproxy.py：配置MitmProxy代理的Python脚本，用于截获和分析网络请求，提取图片URL等重要数据。
LICENSE：许可证文件，遵循相关开源协议。
README.md：项目说明文档，包含项目简介、设想方案、遇到的问题及解决方案等。
picture/：存放项目相关图片，如操作截图等。

2. 项目实现方案详解

2.1 前期尝试与问题解决

在项目实现初期，尝试使用Charles和Fiddler进行抓包，但都出现了网络错误的问题，如图所示：

解决方法是通过root权限，将证书放入系统认可处，推荐在模拟器中使用。

2.2 Appium自动化操作

使用Appium Desktop和Appium Inspector进行相关配置和操作。首先查看包信息，如图：

然后在Appium Inspector中进行配置，配置信息如下：

{
  "platformName": "Android",
  "deviceName": "127.0.0.1:62001",
  "platformVersion": "7.1.2",
  "appPackage": "com.xingin.xhs",
  "appActivity": "com.xingin.xhs.activity.SplashActivity"
}

Appium Inspector配置界面如图：

配置完成后start session，之后进行脚本录制。但在使用过程中遇到了一些问题，比如账号密码登录提示异常、多次重复登录出现异常提醒等。

2.3 MitmProxy抓包分析

通过Fiddler和夜神模拟器进行抓包分析，得到需要的图片url，如图：

从抓包结果可以看出，App通过向特定链接发送请求得到文章信息，其中包含图片列表，如图：

图片列表中包含每个图片的url等信息，如图：

然后使用MitmProxy来执行Python代码，实现对图片文件的保存，MitmProxy界面如图：

2.4 最终实现方案

最终采用appium+mitmproxy+fiddler+夜神模拟器的方案。通过Fiddler和夜神模拟器抓包分析得到图片url，使用MitmProxy执行代码保存图片，Appium不断刷新页面获取更多数据。

3. 项目启动步骤

3.1 环境搭建

确保安装有必要的环境和库，如Appium、requests、mitmproxy等。

3.2 证书安装

对于模拟器或实际设备，需要正确处理SSL证书，可参考相关教程将证书安装到系统认可处。

3.3 启动项目

克隆仓库：

git clone https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider

分别运行Appium和MitmProxy相关脚本，即可开始小红书数据的爬取。

4. 注意事项

模拟器配置：建议按文档使用模拟器，注意模拟器与真实设备行为的差异可能导致的调试问题。
登录问题：使用账号密码登录时可能会出现异常，可尝试使用验证码登录或其他方式解决。
合法合规：遵守法律法规和平台的使用条款，合法合规地进行数据爬取。

通过以上步骤，你可以开始探索并运行XiaohongshuSpider这个小红书爬取项目，轻松获取你所需的数据。

XiaohongshuSpider

小红书爬取

项目地址：https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

如何用XiaohongshuSpider爬取小红书数据？超详细小白教程

1. 项目目录结构及介绍

2. 项目实现方案详解

2.1 前期尝试与问题解决

2.2 Appium自动化操作

2.3 MitmProxy抓包分析

2.4 最终实现方案

3. 项目启动步骤

3.1 环境搭建

3.2 证书安装

3.3 启动项目

4. 注意事项

热门内容推荐

最新内容推荐

项目优选

如何用XiaohongshuSpider爬取小红书数据？超详细小白教程

1. 项目目录结构及介绍

2. 项目实现方案详解

2.1 前期尝试与问题解决

2.2 Appium自动化操作

2.3 MitmProxy抓包分析

2.4 最终实现方案

3. 项目启动步骤

3.1 环境搭建

3.2 证书安装

3.3 启动项目

4. 注意事项

相关内容推荐

热门内容推荐

最新内容推荐

项目优选