3分钟上手B站数据爬取：InfoSpider让你的Python爬虫效率提升10倍

2026-02-04 04:02:22作者：侯霆垣

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰，旨在安全快捷的帮助用户拿回自己的数据，工具代码开源，流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

项目地址：https://gitcode.com/GitHub_Trending/in/InfoSpider

你还在为手动整理B站数据而烦恼？想分析UP主粉丝增长却不知从何下手？本文将带你使用InfoSpider爬虫工具箱，3分钟内搭建起专业的B站数据采集系统，无需复杂编程基础，全程可视化操作，轻松获取并分析粉丝数据。读完本文你将掌握：

快速配置InfoSpider的B站爬虫模块
自动化获取UP主粉丝增长趋势
数据导出与基础分析技巧

为什么选择InfoSpider爬取B站数据？

InfoSpider是一款开源的爬虫工具箱，专为普通用户设计，无需编写复杂代码即可实现数据采集。项目结构清晰，各数据源独立封装，其中B站爬虫模块Spiders/bilibili/main.py采用面向对象设计，核心功能通过BilibiliHistory类实现，支持历史记录和用户信息的批量获取。

项目已提供完整的官方文档docs/QuickStart.md，包含详细的环境配置步骤。与传统爬虫相比，InfoSpider具有以下优势：

安全透明：所有代码开源可审计，避免数据泄露风险
即插即用：无需配置代理池和验证码识别，开箱即用
多源整合：除B站外，还支持知乎、网易云音乐等20+平台

准备工作：3步完成环境配置

1. 克隆项目仓库

git clone https://gitcode.com/GitHub_Trending/in/InfoSpider
cd InfoSpider

2. 安装依赖包

项目依赖已整理在requirements.txt中，执行以下命令一键安装：

pip install -r requirements.txt

3. 获取B站Cookie

打开浏览器访问B站官网并登录
按F12打开开发者工具，切换到"网络"标签
刷新页面，找到任意以api.bilibili.com开头的请求
复制请求头中的Cookie字段值

实战操作：5分钟爬取UP主数据

运行B站爬虫模块

在项目根目录执行以下命令启动B站数据采集：

python Spiders/bilibili/main.py

程序会自动弹出文件选择对话框，选择数据保存路径后开始采集。核心采集逻辑在get_all_bili_history方法中实现，默认每页获取200条记录，最多爬取10页数据：

def get_all_bili_history(self):
    headers = self.get_header()
    history = []
    for page_num in range(self.MAX_PAGE):  # MAX_PAGE=10
        url = 'https://api.bilibili.com/x/v2/history?pn={pn}&ps={ps}'.format(pn=page_num, ps=self.PAGE_PER_NUM)
        result = self.req_get(headers, url)
        if not result['data']:  # 无数据时停止爬取
            break
        history.append(result)
    return history

数据保存与查看

采集完成后，数据将以JSON格式保存到指定目录，包含两个文件：

bilibili_history.json：观看历史记录
user_info.json：用户基本信息

数据结构示例：

{
  "code": 0,
  "message": "0",
  "ttl": 1,
  "data": [
    {
      "aid": 123456789,
      "title": "Python爬虫入门教程",
      "author": "编程学习UP主",
      "view_at": 1620000000
    }
  ]
}

数据可视化：用Excel快速分析粉丝趋势

数据格式转换

使用Python内置的json模块解析数据：

import json
with open('bilibili_history.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

提取关键字段并保存为CSV格式：

import csv
with open('bilibili_data.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['视频标题', 'UP主', '观看时间'])
    for item in data[0]['data']:
        writer.writerow([item['title'], item['author'], item['view_at']])

创建趋势图表

用Excel打开CSV文件，插入折线图即可直观展示观看频率趋势。对于进阶分析，可使用项目中的测试分析模块tests/DeepAnalysis/，该模块提供了数据清洗和模型训练功能。

常见问题与解决方案

爬取速度过慢

修改Spiders/bilibili/main.py中的MAX_PAGE参数（默认10），减少爬取页数：

self.MAX_PAGE = 5  # 仅爬取前5页数据

数据为空或报错

检查Cookie是否过期，建议重新获取
确认网络连接正常，避免VPN干扰
查看错误日志，路径为logs/error.log

导出格式转换

项目提供了extension/js/FileSaver.js工具，支持将JSON数据导出为Excel格式，可在浏览器中直接使用。

总结与进阶建议

通过InfoSpider的B站爬虫模块，我们实现了从环境配置到数据可视化的全流程操作。该工具不仅适用于个人数据备份，还可用于市场调研和竞品分析。进阶用户可尝试：

扩展爬虫功能：修改get_header方法添加自定义请求头
实现定时爬取：结合tools/main.py中的任务调度模块
多平台数据整合：同时运行知乎Spiders/zhihu/main.py和B站爬虫

收藏本文，下次需要分析B站数据时直接对照操作。关注项目README.md获取最新更新，如有问题可提交Issue或参与社区讨论。

提示：本工具仅用于个人数据备份，请勿用于商业用途或频繁请求导致服务器负载过高。

InfoSpider

项目地址：https://gitcode.com/GitHub_Trending/in/InfoSpider

登录后查看全文

3分钟上手B站数据爬取：InfoSpider让你的Python爬虫效率提升10倍

为什么选择InfoSpider爬取B站数据？

准备工作：3步完成环境配置

1. 克隆项目仓库

2. 安装依赖包

3. 获取B站Cookie

实战操作：5分钟爬取UP主数据

运行B站爬虫模块

数据保存与查看

数据可视化：用Excel快速分析粉丝趋势

数据格式转换

创建趋势图表

常见问题与解决方案

爬取速度过慢

数据为空或报错

导出格式转换

总结与进阶建议

热门内容推荐

最新内容推荐

项目优选

3分钟上手B站数据爬取：InfoSpider让你的Python爬虫效率提升10倍

为什么选择InfoSpider爬取B站数据？

准备工作：3步完成环境配置

1. 克隆项目仓库

2. 安装依赖包

3. 获取B站Cookie

实战操作：5分钟爬取UP主数据

运行B站爬虫模块

数据保存与查看

数据可视化：用Excel快速分析粉丝趋势

数据格式转换

创建趋势图表

常见问题与解决方案

爬取速度过慢

数据为空或报错

导出格式转换

总结与进阶建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选