如何快速掌握Google公开专利数据分析：从零开始的完整指南

2026-02-05 04:06:10作者：胡唯隽

在科技创新的浪潮中，专利数据是洞察技术趋势、挖掘研发方向的重要资源。Google公开专利数据项目（patents-public-data）正是这样一个强大的工具，它基于BigQuery提供全球专利数据集的分析能力，帮助开发者、研究人员和创新者轻松探索海量专利信息。无论是趋势研究、竞争情报分析还是学术探索，这个项目都能提供高效的数据支持和便捷的操作体验。

项目核心价值：为什么选择Google公开专利数据？

Google公开专利数据项目将复杂的专利信息转化为可直接分析的结构化数据，让用户无需处理原始数据的繁琐步骤。项目整合了来自USPTO、WIPO等多个权威机构的专利数据，并通过BigQuery实现快速查询，同时提供丰富的示例代码和工具，降低数据分析门槛。

✅ 开放共享的全球专利库

所有数据免费开放，覆盖美国、欧洲、中国等多个国家和地区的专利信息，数据源官方且更新频繁，确保分析结果的准确性和时效性。

✅ 高效便捷的分析工具

无需本地存储海量数据，通过BigQuery云端平台即可执行复杂SQL查询，配合项目提供的Python脚本示例，轻松实现数据提取、预处理和模型训练。

✅ 丰富的应用场景模板

项目包含多个领域的分析案例，如专利 landscaping、权利要求广度评估等，提供完整的代码和数据集，用户可直接复用或二次开发。

项目结构解析：轻松定位所需资源

项目目录清晰，按功能模块划分，方便用户快速查找相关工具和示例：

📂 核心模块路径

数据分析示例：examples/
包含BERT模型应用、专利集合扩展等Jupyter Notebook，适合初学者快速上手。
预训练模型与工具：models/
提供专利 landscaping、权利要求广度评估等模型的源码和训练脚本，支持自定义模型优化。
数据集说明：tables/
详细介绍各数据源结构，包括USPTO、欧洲生物信息研究所等机构的专利数据表字段说明。
实用脚本工具：tools/
包含BigQuery索引器、数据批量处理脚本，简化数据导入和预处理流程。

快速上手：3步开启专利数据分析之旅

1️⃣ 环境准备与项目克隆

首先克隆项目仓库到本地，确保本地环境已安装Python和必要依赖：

git clone https://gitcode.com/gh_mirrors/pa/patents-public-data
cd patents-public-data
pip install -r models/claim_breadth/requirements.txt

2️⃣ 熟悉BigQuery数据集

通过项目提供的文档了解数据集结构，例如Google Patents Public Datasets包含专利申请、分类、引用等信息。可直接在BigQuery控制台执行示例查询，快速获取目标数据：

-- 示例：查询2020年申请的AI领域专利数量
SELECT COUNT(*) 
FROM `patents-public-data.google_patents_research.publications`
WHERE filing_date >= '2020-01-01' 
  AND ipc_main_group LIKE 'G06N%'

3️⃣ 运行示例分析代码

以专利集合扩展为例，使用项目提供的Notebook快速复现分析过程：

jupyter notebook examples/patent_set_expansion.ipynb

通过调整种子专利和模型参数，可生成自定义领域的专利 landscape 图谱，直观展示技术分布和关联关系。

进阶应用：从数据到洞察的实战技巧

🔍 专利趋势分析

利用项目中的时间序列分析工具，追踪特定技术领域的专利申请趋势。例如，通过以下步骤生成趋势图表：

从BigQuery提取目标领域专利的年度申请数据
使用models/landscaping/train_data.py进行数据预处理
调用可视化函数生成折线图或热力图

📊 竞争格局评估

通过权利要求广度模型（models/claim_breadth/）评估竞争对手专利的保护范围，辅助制定专利策略。模型支持批量处理，输出专利广度评分和关键技术特征。

🔗 技术关联挖掘

使用Word2Vec模型（models/landscaping/word2vec.py）训练专利文本嵌入，识别技术术语间的语义关联，发现潜在的技术融合机会。

常见问题与解决方案

❓ 如何解决BigQuery查询权限问题？

确保已在Google Cloud平台启用BigQuery API，并使用项目提供的工具/dataset_public.json配置访问权限。

❓ 模型训练时内存不足怎么办？

可通过models/claim_breadth/preprocess.py调整批处理大小，或使用云GPU资源（如Google Colab Pro）加速训练。

❓ 如何获取非英语专利数据？

项目支持多语言专利分析，可在预处理阶段使用models/landscaping/tokenizer.py进行文本翻译和分词。

结语：释放专利数据的创新潜力

Google公开专利数据项目为技术创新提供了强大的数据支撑和工具链，无论是学术研究、企业战略分析还是个人兴趣探索，都能从中挖掘出有价值的洞察。通过本文介绍的快速上手步骤和进阶技巧，你可以轻松开启专利数据分析之旅，将海量专利数据转化为创新决策的有力依据。

立即行动，探索全球专利数据的无限可能，让技术趋势尽在掌握！

patents-public-data

Patent analysis using the Google Patents Public Datasets on BigQuery

项目地址：https://gitcode.com/gh_mirrors/pa/patents-public-data

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

830

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。