Google Patents Public Data 完整教程：从入门到精通的专利数据分析终极指南

2026-02-07 04:11:39作者：仰钰奇

Google Patents Public Data 是一个基于BigQuery的强大专利分析项目，它整合了来自政府机构、研究组织和私营公司的专利数据，为研究人员、数据分析师和企业提供了进行专利统计分析和深度挖掘的完整解决方案。通过该项目，您可以轻松查询海量专利数据、构建机器学习模型，并发现有价值的技术趋势和商业洞察。

项目环境准备与配置

安装必备工具和依赖

要开始使用Google Patents Public Data项目，您需要首先确保系统环境准备就绪：

安装Google Cloud SDK：这是访问BigQuery服务的基础
配置身份验证：使用 gcloud auth login 登录您的Google Cloud账户
设置项目权限：确保您的账户有访问Patents Public Datasets的权限

获取项目代码

通过以下命令克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/pa/patents-public-data
cd patents-public-data

核心功能模块深度解析

专利景观分析（Patent Landscaping）

专利景观分析是该项目的核心功能之一，它通过机器学习方法自动发现与特定主题相关的专利。该功能基于种子专利集合进行扩展分析，能够帮助您快速构建特定技术领域的专利地图。

从上图可以看出，专利景观分析包含三个主要阶段：

数据准备阶段：读取所有专利数据并提取特征
模型训练阶段：结合嵌入特征和扩展数据进行机器学习
结果优化阶段：对分析结果进行修剪和优化

权利要求文本提取

权利要求文本提取功能让您能够直接与专利权利要求数据进行交互。通过BigQuery和Python的结合使用，您可以轻松提取和分析专利的核心保护范围。

权利要求广度模型

这是一个基于机器学习的专利价值评估工具，通过分析权利要求数据来估计专利的保护范围广度。该模型对于专利质量评估和技术竞争力分析具有重要价值。

实战操作：运行您的第一个专利分析

步骤1：探索示例代码

项目提供了多个Jupyter Notebook示例，包括：

examples/BERT_For_Patents.ipynb：使用BERT模型进行专利分析
examples/claim-text/claim_text_extraction.ipynb：权利要求文本提取演示
models/landscaping/LandscapeNotebook.ipynb：完整的专利景观分析案例

步骤2：运行景观分析示例

启动Jupyter Notebook并打开景观分析示例：

jupyter notebook models/landscaping/LandscapeNotebook.ipynb

按照Notebook中的步骤，您将学习到：

如何准备种子专利数据集
如何进行特征提取和嵌入生成
如何训练机器学习模型进行专利分类
如何评估和优化分析结果

步骤3：自定义分析流程

一旦熟悉了基础操作，您可以开始定制自己的分析流程：

修改种子专利选择标准
调整机器学习模型参数
集成私有数据集进行关联分析

高级技巧与最佳实践

性能优化策略

处理海量专利数据时，性能优化至关重要：

使用BigQuery的分区和聚类功能加速查询
合理设置数据处理批次大小
利用缓存机制减少重复计算

数据质量保证

确保分析结果的准确性：

验证数据源的完整性和时效性
实施数据清洗和预处理步骤
建立结果验证机制

常见问题解决方案

权限配置问题

如果遇到权限错误，请检查：

Google Cloud项目设置是否正确
BigQuery数据集访问权限是否已授权
服务账号密钥配置是否完整

环境依赖问题

确保所有必要的Python库已正确安装：

google-cloud-bigquery
pandas
numpy
其他项目特定依赖

总结与后续学习路径

通过本教程，您已经掌握了Google Patents Public Data项目的核心功能和使用方法。从环境配置到高级分析技巧，您现在应该能够独立进行专利数据分析任务。

关键要点回顾：

项目提供了完整的专利分析工具链
支持从基础查询到复杂机器学习应用
能够与私有数据集进行深度整合

建议的后续学习方向：

深入探索BERT模型在专利文本分析中的应用
学习如何构建自定义的专利价值评估指标
研究如何将分析结果转化为商业决策支持

继续实践和探索，您将能够充分利用这个强大的专利分析平台，为您的技术研究和商业分析提供有力支持！

patents-public-data

Patent analysis using the Google Patents Public Datasets on BigQuery

项目地址：https://gitcode.com/gh_mirrors/pa/patents-public-data

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

844

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。