Bilibili评论数据采集与结构化存储从入门到精通

2026-04-25 11:37:35作者：余洋婵Anita

一、核心价值：解决B站评论数据获取难题

在数据驱动决策的时代，B站作为重要的内容社区，其评论数据蕴含着丰富的用户反馈与社会趋势。然而，评论数据采集面临三大核心挑战：批量处理效率低、数据结构不统一、断点续爬困难。BilibiliCommentScraper通过以下解决方案提供系统性应对：

针对多视频评论采集需求，工具采用文件驱动模式，通过video_list.txt批量管理目标视频链接，实现无人值守的自动化爬取流程。

将非结构化的评论内容转化为标准CSV格式，确保数据字段的完整性与一致性，为后续分析提供可靠数据基础。

通过进度文件记录机制，解决网络中断、程序异常等问题导致的数据采集中断，保障大规模数据采集的连续性。

为社会学、传播学等领域提供一手用户行为数据，助力研究网络舆论形成机制与传播规律。

通过评论情感倾向与关键词提取，帮助内容创作者了解受众反馈，优化内容生产方向。

快速收集特定主题的用户观点，为产品定位、营销策略制定提供数据支持。

# 克隆项目仓库
git clone https://gitcode.com/gh_mirrors/bi/BilibiliCommentScraper

# 安装依赖库
pip install selenium beautifulsoup4 webdriver-manager

# 检查Python版本 (需3.6+)
python --version

# 验证依赖安装
pip list | grep -E "selenium|beautifulsoup4|webdriver-manager"

配置视频列表
编辑项目根目录下的video_list.txt文件，每行添加一个目标视频URL：
```
https://www.bilibili.com/video/BV1xx4y1z789
https://www.bilibili.com/video/BV2yy5x2a1b2
```
启动爬取程序
```
python Bilicomment.py
```
登录验证
程序启动后会自动打开浏览器，按提示完成B站登录，登录状态将通过cookies.pkl文件持久化保存。
数据获取与查看
爬取完成后，每个视频的评论数据将以CSV格式保存于项目根目录，文件名格式为视频ID_评论数据.csv。

图1：CSV格式的评论数据样例展示，包含完整的评论层级关系与元数据

在Bilicomment.py中可调整以下关键参数优化爬取效果：

# 评论区滚动加载控制
MAX_SCROLL_COUNT = 45  # 控制最大滚动次数，平衡数据量与性能
SCROLL_PAUSE_TIME = 2  # 滚动间隔时间(秒)，根据网络状况调整

# 二级评论分页控制
max_sub_pages = 150  # 二级评论最大页码数，控制深度

完整性校验
通过对比爬取评论数与页面显示评论数，评估数据完整性，典型偏差率应控制在5%以内。
数据清洗流程
- 去重处理：基于评论ID去除重复记录
- 文本净化：过滤HTML标签与特殊字符
- 时间标准化：统一转换为UTC时间戳格式
异常处理机制
爬取失败的视频链接会记录于video_errorlist.txt，可通过以下命令重新处理：
```
python Bilicomment.py --retry errors
```