探索YouTube历史记录：一个强大的数据抓取工具

2024-06-12 20:07:48作者：吴年前Myrtle

在这个数字时代，我们的在线行为往往留下了大量的信息足迹，尤其是像YouTube这样的大型视频分享平台。但是，想要完整地保存和管理自己的观看历史却并非易事，因为YouTube仅允许获取最近两周的数据。不过，不用担心——这里有一个开源项目，可以解决这个问题。

项目介绍

Youtube History Scraper 是一个基于Python的高级Scrapy爬虫项目，旨在帮助用户抓取并导出完整的YouTube观看历史记录。这个工具自2022年起虽然不再维护，但仍然是获取长期观看历史的强大资源。它不仅可以让你深入了解自己过去的观看习惯，还可以用于数据分析或其他有趣的项目。

项目技术分析

该项目依赖于Python 3，以及scrapy、lxml等核心库。scrapy是一个强大的Web抓取框架，而lxml则提供了高效的XML和HTML解析功能。在Windows环境下，可选安装pywin32以辅助操作。

值得注意的是，由于YouTube前端的更新，项目现在需要JavaScript渲染来抓取网页。尽管如此，这个项目依然能够通过模拟登录和抓取页面数据，成功获取用户的全量历史记录。

项目及技术应用场景

个人数据分析：了解自己的观看模式，找出可能的影响因素。
学术研究：研究观众观看趋势，探索用户行为模式。
市场分析：收集大量用户数据，为产品推广或内容创作提供参考。
教育应用：监控学生学习路径，评估学习效果。

项目特点

全面的历史记录：不同于官方API仅支持最近两周的数据，该工具能获取更长时间跨度的观看记录。
隐私保护：所有数据都存储在本地，不涉及任何第三方服务，确保了你的信息安全。
简单易用：只需填入浏览器中的Cookie信息，即可启动爬虫运行。
灵活输出：抓取的数据会被导出成CSV文件，方便进一步处理和分析。

友情提示：在使用过程中可能会遇到日期显示为星期的情况，这需要手动调整。社区的贡献者们欢迎任何形式的反馈、问题报告和代码改进。

如果你对深入了解你的YouTube观看历史有兴趣，或者想挖掘这些数据的潜在价值，那么这个项目绝对值得尝试。立即加入，开启你的探索之旅吧！

另外，别忘了，Google也提供了YouTube API v3，你也可以考虑结合API进行定期的数据记录。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

Ascend Extension for PyTorch

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started