3行代码搞定GitHub分页爬取：github_bot.py实战指南

2026-02-05 04:42:24作者：咎竹峻Karen

HelloGitHub

项目地址：https://gitcode.com/GitHub_Trending/he/HelloGitHub

你还在为手动处理GitHub API分页而头疼吗？还在为爬取大量数据写复杂循环吗？本文将带你零基础掌握HelloGitHub项目中的github_bot.py分页爬取技巧，无需复杂编程知识，3行核心代码即可轻松获取GitHub热点数据。

读完本文你将学到：

5分钟快速搭建GitHub数据爬取环境
掌握分页获取的3种实用技巧
学会处理API请求限制与错误重试
实战案例：抓取并分析热门开源项目数据

项目介绍

HelloGitHub是一个分享GitHub上有趣、入门级开源项目的平台，每月28号以月刊形式更新。项目旨在帮助用户快速发现优质开源资源，其核心功能之一就是通过自动化工具爬取和分析GitHub数据。

社区教程：README.md

核心功能解析

github_bot.py是项目中的关键脚本，主要用于从GitHub API获取事件数据并进行分析过滤。其核心分页实现位于以下两个函数：

分页获取函数

def get_data(page=1):
    """
    从目标源获取数据
    https://developer.github.com/v3/activity/events/
    GitHub 规定：默认每页 30 条，最多 300 条目
    """
    args = '?page={page}'.format(page=page)
    response = requests.get(API['events']+args,
                            auth=(ACCOUNT['username'], ACCOUNT['password']))
    # ... 响应处理逻辑 ...

分页实现源码：script/github_bot/github_bot.py

批量获取多页数据

def get_all_data():
    """
    获取全部 300 条的数据
    GitHub 规定：默认每页 30 条，最多 300 条目
    """
    all_data_list = []
    for i in range(10):  # 循环获取10页数据
        response_json = get_data(i+1)
        if response_json:
            all_data_list.extend(response_json)
    return all_data_list

批量获取实现：script/github_bot/github_bot.py

环境准备

依赖安装

项目依赖极其简单，仅需requests库：

pip install requests

依赖清单：script/github_bot/requirements.txt

配置文件设置

需要修改github_bot.py中的以下配置项：

# github帐号
ACCOUNT = {
    'username': '',  # 填入GitHub用户名
    'password': ''   # 填入GitHub密码或Token
}

# 几天前
DAY = 1  # 数据时间范围

# 项目stars临界值
STARS = 100  # 筛选stars数量大于此值的项目

分页爬取实战技巧

基础分页获取

获取单页数据，适用于少量数据获取：

# 获取第2页数据
page_data = get_data(page=2)
print(f"获取到 {len(page_data)} 条数据")

批量分页获取

自动获取多页数据，最多获取10页（300条）：

# 获取全部数据
all_data = get_all_data()
print(f"共获取到 {len(all_data)} 条数据")

条件过滤分页获取

结合分析函数，只获取符合条件的数据：

# 获取全部数据并过滤
all_data = get_all_data()
filtered_data = analyze(all_data)  # 分析过滤数据
print(f"过滤后得到 {len(filtered_data)} 条有效数据")

数据处理流程

github_bot.py的数据处理流程如下：

graph TD
    A[开始] --> B[设置分页参数]
    B --> C[调用get_data获取单页数据]
    C --> D{是否有数据?}
    D -- 是 --> E[添加到数据列表]
    E --> F{是否达到最大页数?}
    F -- 否 --> C
    F -- 是 --> G[分析过滤数据]
    G --> H[提取项目stars数量]
    H --> I[生成结果表格]
    I --> J[发送邮件通知]
    J --> K[结束]
    D -- 否 --> K

常见问题解决

问题	解决方案
API请求频率限制	增加请求间隔，使用GitHub Token认证
数据不完整	检查网络连接，增加超时时间
认证失败	确保ACCOUNT配置正确，推荐使用Personal Access Token
分页参数无效	确认page参数是否正确传递到URL中

实战案例

以下是一个完整的使用示例，获取最近1天内stars数超过100的GitHub项目：

if __name__ == '__main__':
    # 获取并处理数据
    content = make_content()  # 整合分页获取与分析
    # 发送邮件(需配置邮箱信息)
    send_email(RECEIVERS, content)
    print("数据获取与发送完成")

执行脚本后，符合条件的项目数据将以HTML表格形式通过邮件发送，示例表格格式如下：

<table border="2" align="center">
  <tr>
    <th>头像</th>
    <th>用户名</th>
    <th>项目名</th>
    <th>starred 日期</th>
    <th>项目 star 数量</th>
  </tr>
  <!-- 项目数据行 -->
</table>