3个步骤打造你的arXiv论文自动推送系统：zotero-arxiv-daily完全指南

2026-04-04 09:44:19作者：龚格成

在学术研究的数字化时代，如何高效追踪领域前沿论文成为每位研究者的必备技能。zotero-arxiv-daily作为一款开源工具，通过深度整合Zotero图书馆与arXiv论文库，实现了个性化论文推荐的自动化推送。本文将带你从零开始搭建属于自己的论文追踪系统，让你每天轻松获取最相关的学术进展。

一、核心价值：为什么选择zotero-arxiv-daily

1. 零成本自动化：GitHub Actions驱动的智能推送

借助GitHub Actions（GitHub提供的自动化任务调度工具），你无需搭建服务器或配置复杂环境，即可实现每日自动运行。项目完全开源免费，通过预设工作流自动完成论文检索、匹配和邮件发送全流程，真正做到"一次配置，终身受益"。

2. 个性化推荐算法：基于Zotero图书馆的智能匹配

系统会深度分析你Zotero图书馆中的论文元数据（标题、摘要、关键词），通过内置的相似度计算模型，从arXiv每日更新中精准筛选出与你研究方向最相关的论文。相比传统关键词订阅，这种基于内容的推荐方式准确率提升40%以上。

3. 灵活可扩展架构：支持多源论文库与自定义配置

除arXiv外，项目已内置bioRxiv、medRxiv等预印本平台支持，并提供开放接口便于集成新的学术资源。通过配置文件可自定义推荐权重、邮件模板和推送频率，满足不同研究场景的个性化需求。

二、快速配置：3步完成自动化推送系统搭建

1. 项目准备：2分钟完成仓库部署

首先需要将项目代码部署到你的代码仓库：

git clone https://gitcode.com/GitHub_Trending/zo/zotero-arxiv-daily

然后在仓库页面点击右上角的"Fork"按钮创建个人副本，完成基础部署。

2. 环境配置：核心参数设置指南

进入仓库的"Settings > Secrets and variables > Actions"页面，添加以下配置项：

基础必填项（5项）

ZOTERO_ID：你的Zotero账户ID（在Zotero设置的"Feeds/API"中获取）
ZOTERO_KEY：Zotero API密钥（需开启读取权限）
ARXIV_QUERY：arXiv分类查询（如"cs.CV+stat.ML"表示计算机视觉和机器学习领域）
SMTP_SERVER：邮件服务器地址（如QQ邮箱为"smtp.qq.com"）
RECEIVER：接收邮件的邮箱地址

高级功能项（5项）

MAX_PAPER_NUM：每次推送的最大论文数量（建议设为5-10）
SEND_EMPTY：无新论文时是否发送空邮件（设为"false"节省邮箱空间）
USE_LLM_API：是否启用AI摘要功能（设为"true"需配置以下LLM参数）
OPENAI_API_KEY：LLM服务API密钥（支持OpenAI兼容接口）
MODEL_NAME：选用的AI模型（如"gpt-3.5-turbo"）

3. 工作流触发：手动测试与自动调度

配置完成后，进入仓库的"Actions"页面，选择"Send emails daily"工作流，点击"Run workflow"手动触发一次执行，测试配置是否正确。系统默认每天自动运行，也可在.github/workflows/main.yml中修改调度时间。

常见错误排查表

问题现象	可能原因	解决方法
邮件发送失败	SMTP参数错误	检查SMTP服务器地址和端口，QQ邮箱需开启SMTP服务并使用授权码
无推荐结果	Zotero库为空	确保Zotero中有至少5篇以上相关论文供系统学习
工作流执行超时	网络连接问题	检查仓库所在地区是否能正常访问arXiv和Zotero API
论文相关性低	查询条件过宽	优化ARXIV_QUERY参数，使用更具体的分类或关键词组合

三、场景拓展：2大行业应用实战案例

1. 研究生文献追踪场景实战

适用人群：计算机、生物医学等领域的硕博士生
配置要点：

ARXIV_QUERY设置为细分领域（如"cs.LG+cs.AI"）
启用LLM摘要功能（USE_LLM_API=true）
MAX_PAPER_NUM设为10，确保每日阅读量可控

使用技巧：每周一将推荐论文整理到Zotero收藏夹，结合Zotero的笔记功能进行初步筛选，每月形成领域进展综述。系统会随着你的文献库增长不断优化推荐精度，形成个人化的学术雷达。

2. 企业研发情报收集场景实战

适用人群：科技企业研发部门情报专员
配置要点：

配置多仓库监控（通过custom.yaml设置多个ZOTERO_ID）
开启多源论文库（同时监控arXiv、bioRxiv）
设置SEND_EMPTY=true，确保每日情报连续性

实施步骤：

创建专用Zotero库分类存储竞争对手相关论文
配置企业内部SMTP服务器实现团队共享
结合项目的src/zotero_arxiv_daily/retriever/模块开发自定义过滤器，筛选与公司技术路线相关的研究

四、生态延伸：2个可扩展方向的实现思路

1. 多学术平台整合方案

实现思路：扩展retriever模块支持更多学术数据库

# 参考现有实现：src/zotero_arxiv_daily/retriever/arxiv_retriever.py
# 新增pubmed_retriever.py实现PubMed数据库检索
class PubMedRetriever(BaseRetriever):
    def __init__(self, api_key):
        self.api_key = api_key
        self.base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi"
    
    def search(self, query, max_results=10):
        # 实现PubMed API调用逻辑
        pass