小红书数据采集工具使用指南：从环境搭建到图片抓取

2026-02-06 04:50:02作者：房伟宁

认识项目：小红书数据采集工具包

XiaohongshuSpider是一套轻量级数据采集解决方案，专为小红书平台设计。这个开源项目通过Appium自动化操作与MitmProxy网络拦截的组合拳，实现了对小红书内容的高效采集。项目采用Apache-2.0开源协议，核心代码通过Python脚本组织，包含自动化控制、网络抓包、数据解析三大功能模块，适合需要批量获取小红书图文内容的开发者使用 🚀

准备工作：部署运行环境

获取项目代码

首先通过Git将项目克隆到本地：

git clone https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider

项目核心文件包括：

app_appium.py：Appium自动化控制脚本
app_mitmproxy.py：MitmProxy网络拦截处理脚本
picture/：存储采集到的图片素材

安装依赖组件

需要提前安装以下工具：

Python 3.6+ 运行环境
Appium 桌面版（含Inspector工具）
MitmProxy 网络抓包工具
夜神安卓模拟器（推荐配置Android 7.1.2）
Fiddler 辅助抓包分析工具

通过pip安装Python依赖：

pip install appium-python-client mitmproxy requests pillow

配置核心组件

配置Appium环境

启动Appium后，需要配置设备连接参数。在项目的app_appium.py中已预设基础配置：

desired_caps = {
    'platformName': 'Android',
    'deviceName': '127.0.0.1:62001',  # 夜神模拟器默认端口
    'platformVersion': '7.1.2',
    'appPackage': 'com.xingin.xhs',  # 小红书包名
    'appActivity': 'com.xingin.xhs.activity.SplashActivity'
}

确保模拟器已启动并通过adb devices能检测到设备。

设置MitmProxy证书

MitmProxy需要安装证书才能正常抓包HTTPS流量：

启动MitmProxy后访问mitm.it下载对应系统证书
将证书安装到安卓模拟器的系统证书目录（需Root权限）
配置模拟器网络代理指向MitmProxy运行端口

图：Fiddler证书安装到模拟器的配置界面

启动采集流程

启动自动化控制

运行Appium控制脚本实现自动登录和页面刷新：

python app_appium.py

脚本会自动完成：

小红书应用启动
账号密码登录（需提前在代码中替换XXXX为实际账号密码）
循环下滑刷新首页内容

登录过程中若遇到"登录异常"提示，可尝试改用验证码登录方式，或等待一段时间后重试。

启动网络拦截

另开终端窗口启动MitmProxy拦截脚本：

mitmdump -s app_mitmproxy.py

脚本会自动拦截小红书API请求，提取图片URL并保存到本地：

# 核心拦截逻辑
def response(flow):
    if flow.request.url.startswith('https://edith.xiaohongshu.com/api/sns/v6/'):
        for data in json.loads(flow.response.text)['data']:
            # 提取文章标题、描述和图片URL
            article = {
                'title': data['display_title'],
                'desc': data['desc'],
                'images': [img['url_size_large'] for img in data['images_list']]
            }
            # 保存第一张图片到本地
            img_data = requests.get(article['images'][0])
            with open(f"./{article['images'][0].split('/')[3].split('?')[0]}.jpg", "wb") as f:
                f.write(img_data.content)

解决常见问题

抓包失败处理

若使用Charles或Fiddler直接抓包时出现网络错误：

确保模拟器与抓包工具在同一网络
检查证书是否安装到系统信任区
尝试更换代理端口或重启模拟器

图：Fiddler抓取小红书API请求的分析界面

反爬机制应对

多次登录导致账号异常时：

减少自动化登录频率
尝试保存登录状态（如通过uiautomatorviewer获取登录后的Cookie）
分析API请求参数，特别是trace_id等动态参数的生成逻辑

扩展与优化

功能扩展方向

增加多账号轮换登录功能
实现图片批量下载与分类存储
添加MongoDB数据库存储支持
开发简单的Web管理界面

性能优化建议

降低页面刷新频率（当前每5秒刷新一次）
使用线程池处理图片下载
添加请求失败重试机制
实现断点续传功能

通过以上步骤，你可以搭建起一套完整的小红书数据采集系统。请注意在使用过程中遵守相关法律法规，尊重平台使用条款和用户隐私，合理控制采集频率。

技术原理简析

本项目采用"前端自动化+后端拦截"的双重方案：

前端层：通过Appium模拟用户操作，解决动态加载和登录验证问题
网络层：通过MitmProxy在传输层拦截API请求，直接获取原始数据
数据层：解析JSON响应提取关键信息，实现图片本地化存储

这种架构既避免了直接网页爬取的反爬限制，又比纯API调用方式更稳定可靠，适合对小红书这类有严格反爬措施的平台进行数据采集。

XiaohongshuSpider

小红书爬取

项目地址：https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider

登录后查看全文

小红书数据采集工具使用指南：从环境搭建到图片抓取

认识项目：小红书数据采集工具包

准备工作：部署运行环境

获取项目代码

安装依赖组件

配置核心组件

配置Appium环境

设置MitmProxy证书

启动采集流程

启动自动化控制

启动网络拦截

解决常见问题

抓包失败处理

反爬机制应对

扩展与优化

功能扩展方向

性能优化建议

技术原理简析

热门内容推荐

最新内容推荐

项目优选

小红书数据采集工具使用指南：从环境搭建到图片抓取

认识项目：小红书数据采集工具包

准备工作：部署运行环境

获取项目代码

安装依赖组件

配置核心组件

配置Appium环境

设置MitmProxy证书

启动采集流程

启动自动化控制

启动网络拦截

解决常见问题

抓包失败处理

反爬机制应对

扩展与优化

功能扩展方向

性能优化建议

技术原理简析

相关内容推荐

热门内容推荐

最新内容推荐

项目优选