如何用XiaohongshuSpider爬取小红书数据?超详细小白教程
XiaohongshuSpider是一款功能强大的小红书爬取工具,能帮助用户轻松获取小红书平台的图片等数据。本文将为你详细介绍这个项目的使用方法,让你快速上手,高效爬取所需内容。
1. 项目目录结构及介绍
XiaohongshuSpider项目结构清晰,主要包含以下文件和文件夹:
- app_appium.py:使用Appium进行自动化操作的Python脚本,用于模拟登录小红书应用、刷新页面等操作。
- app_mitmproxy.py:配置MitmProxy代理的Python脚本,用于截获和分析网络请求,提取图片URL等重要数据。
- LICENSE:许可证文件,遵循相关开源协议。
- README.md:项目说明文档,包含项目简介、设想方案、遇到的问题及解决方案等。
- picture/:存放项目相关图片,如操作截图等。
2. 项目实现方案详解
2.1 前期尝试与问题解决
在项目实现初期,尝试使用Charles和Fiddler进行抓包,但都出现了网络错误的问题,如图所示:
解决方法是通过root权限,将证书放入系统认可处,推荐在模拟器中使用。
2.2 Appium自动化操作
使用Appium Desktop和Appium Inspector进行相关配置和操作。首先查看包信息,如图:
然后在Appium Inspector中进行配置,配置信息如下:
{
"platformName": "Android",
"deviceName": "127.0.0.1:62001",
"platformVersion": "7.1.2",
"appPackage": "com.xingin.xhs",
"appActivity": "com.xingin.xhs.activity.SplashActivity"
}
Appium Inspector配置界面如图:
配置完成后start session,之后进行脚本录制。但在使用过程中遇到了一些问题,比如账号密码登录提示异常、多次重复登录出现异常提醒等。
2.3 MitmProxy抓包分析
通过Fiddler和夜神模拟器进行抓包分析,得到需要的图片url,如图:
从抓包结果可以看出,App通过向特定链接发送请求得到文章信息,其中包含图片列表,如图:
图片列表中包含每个图片的url等信息,如图:
然后使用MitmProxy来执行Python代码,实现对图片文件的保存,MitmProxy界面如图:
2.4 最终实现方案
最终采用appium+mitmproxy+fiddler+夜神模拟器的方案。通过Fiddler和夜神模拟器抓包分析得到图片url,使用MitmProxy执行代码保存图片,Appium不断刷新页面获取更多数据。
3. 项目启动步骤
3.1 环境搭建
确保安装有必要的环境和库,如Appium、requests、mitmproxy等。
3.2 证书安装
对于模拟器或实际设备,需要正确处理SSL证书,可参考相关教程将证书安装到系统认可处。
3.3 启动项目
克隆仓库:
git clone https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider
分别运行Appium和MitmProxy相关脚本,即可开始小红书数据的爬取。
4. 注意事项
- 模拟器配置:建议按文档使用模拟器,注意模拟器与真实设备行为的差异可能导致的调试问题。
- 登录问题:使用账号密码登录时可能会出现异常,可尝试使用验证码登录或其他方式解决。
- 合法合规:遵守法律法规和平台的使用条款,合法合规地进行数据爬取。
通过以上步骤,你可以开始探索并运行XiaohongshuSpider这个小红书爬取项目,轻松获取你所需的数据。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0199
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0130
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python08
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook07







