Bilibili视频数据爬虫项目教程

2026-01-21 04:46:58作者：钟日瑜

Bilibili视频数据爬虫精确爬取完整的b站视频数据，包括标题、up主、up主id、精确播放数、历史累计弹幕数、点赞数、投硬币枚数、收藏人数、转发人数、发布时间、视频时长、视频简介、作者简介和标签

项目地址：https://gitcode.com/gh_mirrors/bi/Bilivideoinfo

1. 项目的目录结构及介绍

Bilivideoinfo/
├── LICENSE
├── README.md
├── idlist-sample.txt
├── output-sample.png
├── output-sample.xlsx
└── scraper.py

LICENSE: 项目的开源许可证文件，本项目使用MIT许可证。
README.md: 项目的说明文件，包含项目的基本介绍、使用方法和注意事项。
idlist-sample.txt: 示例文件，包含需要爬取的视频链接或视频ID列表，每行一个。
output-sample.png: 示例输出文件的截图，展示爬取结果的预览。
output-sample.xlsx: 示例输出文件，爬取的数据将保存到此Excel文件中。
scraper.py: 项目的启动文件，包含爬虫的主要逻辑。

2. 项目的启动文件介绍

scraper.py

scraper.py 是项目的启动文件，负责执行爬虫任务。以下是该文件的主要功能：

读取视频ID列表: 从 idlist-sample.txt 文件中读取需要爬取的视频链接或视频ID。
爬取视频数据: 使用 requests 和 BeautifulSoup 库爬取Bilibili视频的详细数据，包括标题、UP主信息、播放数、弹幕数、点赞数等。
保存数据: 将爬取的数据保存到 output-sample.xlsx 文件中，并以Excel格式输出。
错误处理: 如果爬取过程中出现错误，错误记录将保存到 video_errorlist.txt 文件中。

3. 项目的配置文件介绍

本项目没有专门的配置文件，所有配置和输入数据均通过以下文件进行：

idlist-sample.txt: 该文件用于存储需要爬取的视频链接或视频ID列表。每行一个链接或ID，爬虫将根据此列表进行数据爬取。

使用方法

准备视频ID列表: 将需要爬取的视频链接或视频ID列表存储在 idlist-sample.txt 文件中，每行一个。
运行爬虫: 在终端或命令行中运行 python scraper.py，爬虫将开始执行并输出结果到 output-sample.xlsx 文件中。
查看结果: 爬取的数据将保存到 output-sample.xlsx 文件中，您可以使用Excel打开查看。

注意事项

确保在运行代码之前已安装所需的Python库，如 requests、beautifulsoup4 和 openpyxl。
网络畅通是爬取数据的前提条件，请确保网络连接正常。

Bilibili视频数据爬虫精确爬取完整的b站视频数据，包括标题、up主、up主id、精确播放数、历史累计弹幕数、点赞数、投硬币枚数、收藏人数、转发人数、发布时间、视频时长、视频简介、作者简介和标签

项目地址：https://gitcode.com/gh_mirrors/bi/Bilivideoinfo

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

flutter_flutter

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started