专利数据分析零基础指南：从环境搭建到实战应用

2026-05-02 11:51:53作者：鲍丁臣Ursa

专利数据分析是了解技术趋势和创新方向的重要手段。本文将带你从零开始，使用Google Patents Public Data项目快速掌握专利数据分析技能，无需复杂编程背景也能轻松上手。

搭建你的专利分析环境

要开始专利数据分析之旅，首先需要准备好工作环境。这个过程就像给电脑安装新软件一样简单，跟着步骤操作即可完成。

首先确保你的电脑上已经安装了Google Cloud SDK，这是连接BigQuery的必要工具。然后通过以下命令获取项目代码：

git clone https://gitcode.com/gh_mirrors/pa/patents-public-data

下载完成后，你需要在Google Cloud控制台中创建一个新的BigQuery数据集。这个数据集就像是一个专门存放专利数据的数据库，是后续所有分析工作的基础。创建完成后，你可以在项目的工具模块(tools/)中找到配置脚本，帮助你快速连接到自己的数据集。

完成环境配置后，你最想分析哪类专利数据？是人工智能、新能源还是生物科技？

获取并处理专利数据

有了基础环境，接下来需要获取专利数据并进行预处理。这个阶段就像准备烹饪食材，需要把原始数据处理成适合分析的格式。

项目提供了多种数据获取方式，你可以通过数据处理工具(tools/)中的脚本直接从公共数据源获取专利数据。这些工具支持多种格式转换和批量处理操作，即使是百万级别的专利数据也能轻松应对。

数据获取后，需要进行清洗和预处理。你可以使用预处理脚本(models/claim_breadth/preprocess.py)来处理原始数据，去除重复信息，提取关键特征。处理完成的数据会被转换成适合分析的格式，为后续的分析工作做好准备。

数据处理过程中遇到的最大挑战是什么？是数据量太大还是格式不统一？

零基础上手专利数据分析

处理好数据后，就可以开始进行专利数据分析了。即使没有数据分析经验，你也可以通过项目提供的示例快速入门。

在示例代码(examples/)目录中，你会找到多个Jupyter Notebook文件，这些文件包含了完整的分析流程和代码示例。从简单的专利数量统计到复杂的技术分类，每个示例都有详细的注释说明，跟着操作就能得到分析结果。

例如，你可以使用以下伪代码进行基础的专利趋势分析：

# 导入分析工具
from analysis_tools import PatentAnalyzer

# 创建分析器实例
analyzer = PatentAnalyzer(dataset="你的数据集名称")

# 分析特定技术领域的专利趋势
trend_data = analyzer.analyze_trend(keywords=["人工智能", "机器学习"], time_range="2010-2020")

# 显示分析结果
analyzer.show_results(trend_data)

通过这样简单的几步操作，你就能得到特定技术领域的专利数量变化趋势，了解该领域的技术发展情况。

尝试分析后，你发现了哪些有趣的技术趋势？