首页
/ 如何高效抓取B站评论?BilibiliCommentScraper爬虫工具终极指南 🚀

如何高效抓取B站评论?BilibiliCommentScraper爬虫工具终极指南 🚀

2026-02-05 04:04:50作者:江焘钦

BilibiliCommentScraper是一款强大的B站视频评论爬取工具,能够帮助用户轻松获取包括用户名、发布时间、点赞数在内的完整评论数据,支持批量爬取与断点续爬,让数据收集更简单高效。

📌 核心功能:为什么选择这款B站评论爬虫?

1️⃣ 全面数据抓取:一级+二级评论无遗漏

工具不仅能爬取一级评论,还能深入提取二级评论,输出字段丰富完整,包括:

  • 一级评论计数、隶属关系(一级/二级评论)
  • 被评论者昵称及ID、评论者昵称及ID
  • 评论内容、发布时间、点赞数

B站评论爬取字段示例
图:BilibiliCommentScraper输出的CSV文件字段示例,清晰展示评论数据结构

2️⃣ 批量处理:多视频评论一键获取

只需将目标视频URL按行写入video_list.txt文件,工具会自动为每个视频生成独立的CSV文件(以视频ID命名),轻松实现多任务并行处理。

3️⃣ 智能断点续爬:进度管理更灵活

依托progress.txt文件记录爬取进度,支持随时中断后恢复:

  • 自动读取进度文件,无需从头开始
  • 如需重新爬取,删除progress.txt即可
  • 支持手动修改进度文件,跳过失败任务或调整爬取顺序

小技巧:若某视频爬取失败,直接在progress.txt中增加video_count数值即可跳过该视频

4️⃣ 自动登录与错误重试:省心省力

  • 一次登录即可持久化Cookies(存储于cookies.pkl),后续无需重复验证
  • 内置错误自动重试机制,网络波动或页面加载失败时自动恢复,适合长时间无人值守运行

📥 快速开始:3步安装使用教程

1️⃣ 环境准备(零基础友好)

  1. 安装Python 3环境
  2. 执行以下命令安装依赖库:
pip install selenium beautifulsoup4 webdriver-manager

2️⃣ 配置爬取任务

  • 克隆仓库:git clone https://gitcode.com/gh_mirrors/bi/BilibiliCommentScraper
  • 编辑video_list.txt,添加目标视频URL(每行一个)

3️⃣ 启动爬取流程

  1. 运行主程序:python Bilicomment.py
  2. 根据提示完成B站登录(仅首次需要)
  3. 等待爬取完成,结果将保存为CSV文件(UTF-8编码)

⚙️ 高级配置:优化你的爬取效率

调整爬取参数(进阶用户)

  • 修改最大滚动次数:在代码中调整MAX_SCROLL_COUNT(默认45次,约920条一级评论)
  • 限制二级评论页数:设置max_sub_pages参数(默认150页,设为None则无限制)

解决常见问题

  • CSV乱码:用记事本打开文件检查编码,确保使用UTF-8格式
  • Permission denied错误:关闭占用CSV或进度文件的程序,或尝试管理员权限运行
  • 内存溢出:减少单次爬取视频数量,或降低MAX_SCROLL_COUNT限制

💡 使用提示:让爬取更稳定高效

  1. 定期清理缓存:selenium会生成临时文件,建议重试前删除浏览器缓存
  2. 避免频繁操作:如遇长时间无响应,可重启程序利用断点续爬恢复
  3. 随机延时设置:如需降低被反爬风险,可添加随机延时(需导入random库):
import random
time.sleep(random.uniform(1, 5))  # 1-5秒随机延时

📝 注意事项

  • 数据合规:爬取数据仅供学习研究使用,遵守B站用户协议
  • 评论数量差异:由于B站存在隐藏评论或已删除内容,实际爬取数量可能少于显示数量
  • Excel打开异常:以"-"开头的昵称可能显示为$NAME?,属正常现象

通过BilibiliCommentScraper,无论是数据分析爱好者还是内容研究者,都能轻松获取B站评论区的宝贵数据。立即尝试这款高效工具,开启你的评论数据挖掘之旅吧!🌟

登录后查看全文
热门项目推荐
相关项目推荐