小红书数据采集实战指南：从零搭建自动化抓取系统

2026-02-07 05:18:04作者：温玫谨Lighthearted

还在为获取小红书内容数据而烦恼吗？想要批量采集图文笔记却不知从何入手？本文将带你从零开始，手把手搭建一套高效稳定的小红书数据采集系统，彻底解决数据获取难题！

为什么选择自动化采集方案？

传统的手动复制粘贴效率低下，而直接调用API又面临反爬限制。我们的解决方案采用"前端模拟+网络拦截"双管齐下，既规避了反爬机制，又保证了数据完整性。

快速开始：5步搭建采集环境

第一步：获取项目代码

git clone https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider
cd XiaohongshuSpider

第二步：安装必备依赖

确保你的Python环境为3.6+版本，然后执行：

pip install appium-python-client mitmproxy requests pillow

第三步：配置安卓模拟器

推荐使用夜神模拟器（Android 7.1.2版本），安装小红书App并完成基础设置。

第四步：设置自动化参数

在项目根目录下，你会找到两个核心脚本：

app_appium.py - 自动化控制脚本
app_mitmproxy.py - 网络拦截脚本

第五步：启动采集流程

同时运行两个终端窗口：

# 终端1：启动Appium自动化
python app_appium.py

# 终端2：启动网络拦截
mitmdump -s app_mitmproxy.py

核心配置详解

自动化控制配置

Appium配置是自动化操作的关键，在app_appium.py中预设了基础参数：

desired_caps = {
    'platformName': 'Android',
    'deviceName': '127.0.0.1:62001',  # 夜神模拟器默认连接
    'platformVersion': '7.1.2',
    'appPackage': 'com.xingin.xhs',
    'appActivity': 'com.xingin.xhs.activity.SplashActivity'
}

Appium Desired Capabilities配置界面，设置设备连接和App启动参数

HTTPS抓包证书配置

为了能够解密HTTPS流量，需要进行证书配置：

Fiddler HTTPS证书配置界面，确保HTTPS流量可被解密

操作步骤：

启动Fiddler并进入Options > HTTPS
勾选"Decrypt HTTPS traffic"
点击"Export Root Certificate"导出证书
在模拟器中安装并信任该证书

实战操作流程

自动化登录与刷新

运行app_appium.py后，系统会自动：

启动小红书App
执行登录操作（需提前配置账号密码）
循环下滑刷新首页内容
维持会话活跃状态

网络数据拦截与解析

app_mitmproxy.py脚本会拦截所有API请求，核心逻辑如下：

def response(flow):
    # 识别小红书API请求
    if 'xiaohongshu.com/api/sns' in flow.request.url:
        # 解析JSON响应数据
        response_data = json.loads(flow.response.text)
        
        # 提取关键信息
        for note_data in response_data['data']:
            title = note_data['display_title']
            description = note_data['desc']
            image_urls = [img['url_size_large'] for img in note_data['images_list']]
            
            # 下载第一张图片
            download_image(image_urls[0])