PyTorch Geometric入门指南：从基础到实践的图神经网络开发

2026-04-08 09:28:12作者：昌雅子Ethen

基础认知：图神经网络的核心概念

3分钟速览

图数据结构由节点和边组成，类似社交网络中的用户（节点）和关系（边）
PyG使用Data对象统一表示图数据，核心包含节点特征、边索引和目标值
图神经网络通过聚合邻居信息实现节点表示学习，适用于非欧几里得数据

从社交网络到分子结构：图数据的直观理解

现实世界中的许多数据都具有图结构特性。想象一个社交网络平台，每个用户是一个"节点"，用户之间的关注关系构成"边"，用户的个人信息（年龄、兴趣等）则是"节点特征"。这种结构与分子结构图高度相似——分子中的原子是节点，化学键是边，原子属性是节点特征。

PyG将这种结构抽象为Data对象，包含三个核心组件：

节点特征(x)：形状为[节点数量, 特征维度]的张量，存储每个节点的属性信息
边索引(edge_index)：形状为[2, 边数量]的COO格式张量（类似通讯录的双边关系记录法），记录节点间的连接关系
目标值(y)：存储预测任务的标签信息

图神经网络与传统深度学习的关键差异

维度	传统深度学习	图神经网络
数据结构	欧几里得数据（网格结构）	非欧几里得数据（图结构）
特征处理	固定尺寸输入，顺序处理	动态尺寸输入，关系依赖
核心操作	卷积/池化（局部区域）	消息传递（邻居聚合）
适用场景	图像、文本等规则数据	社交网络、分子结构等关系数据

常见误区解析：

❌ 认为图神经网络只是传统神经网络的简单变形
✅ 实际上GNN的消息传递机制是全新范式，能显式建模节点间依赖关系
❌ 认为图数据必须是无向的
✅ PyG支持有向图，通过edge_index的方向定义边的指向性

核心操作：PyG实战开发流程

3分钟速览

环境搭建需匹配PyTorch版本，推荐源码安装获取完整功能
分子图分类任务可作为入门场景，使用TUDataset数据集
图神经网络构建遵循"图卷积层+激活函数+正则化"的经典模式
评估需考虑图数据的特殊性质，如节点级与图级任务的差异

环境配置：5分钟完成安装

PyG的安装需要匹配PyTorch版本，推荐通过源码安装以获取全部功能：

git clone https://gitcode.com/GitHub_Trending/py/pytorch_geometric
cd pytorch_geometric
pip install -e .[full]

安装验证可运行分子图分类示例：

python examples/mutag_gin.py

分子图分类实战：数据加载与预处理

以MUTAG数据集（包含188个分子图，每个分子被标记为诱变剂或非诱变剂）为例：

from torch_geometric.datasets import TUDataset
from torch_geometric.loader import DataLoader

# 加载数据集
dataset = TUDataset(root='data/MUTAG', name='MUTAG')
print(f"数据集信息: {len(dataset)}个图, {dataset.num_features}个节点特征, {dataset.num_classes}个类别")

# 划分训练集和测试集
dataset = dataset.shuffle()
train_dataset = dataset[:150]
test_dataset = dataset[150:]

# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

每个分子图数据对象包含：

x: 原子特征矩阵 [num_nodes, num_features]
edge_index: 化学键连接关系 [2, num_edges]
y: 分子标签（0或1）

构建GIN模型：图同构网络实现

图同构网络（GIN）通过聚合邻居信息捕捉图结构特征，适合分子图分类任务：

import torch
import torch.nn.functional as F
from torch_geometric.nn import GINConv, global_add_pool

class GIN(torch.nn.Module):
    def __init__(self, hidden_channels, num_node_features, num_classes):
        super().__init__()
        torch.manual_seed(12345)
        
        # 定义GIN卷积层
        self.conv1 = GINConv(torch.nn.Sequential(
            torch.nn.Linear(num_node_features, hidden_channels),
            torch.nn.ReLU(),
            torch.nn.Linear(hidden_channels, hidden_channels)
        ))
        
        self.conv2 = GINConv(torch.nn.Sequential(
            torch.nn.Linear(hidden_channels, hidden_channels),
            torch.nn.ReLU(),
            torch.nn.Linear(hidden_channels, hidden_channels)
        ))
        
        self.conv3 = GINConv(torch.nn.Sequential(
            torch.nn.Linear(hidden_channels, hidden_channels),
            torch.nn.ReLU(),
            torch.nn.Linear(hidden_channels, hidden_channels)
        ))
        
        # 分类头
        self.lin = torch.nn.Linear(hidden_channels, num_classes)

    def forward(self, x, edge_index, batch):
        # 图卷积层
        x = self.conv1(x, edge_index)
        x = x.relu()
        x = self.conv2(x, edge_index)
        x = x.relu()
        x = self.conv3(x, edge_index)
        
        # 全局池化：将图中所有节点特征聚合为图特征
        x = global_add_pool(x, batch)
        
        # 分类
        x = F.dropout(x, p=0.5, training=self.training)
        x = self.lin(x)
        
        return F.log_softmax(x, dim=1)

模型训练与评估：完整流程实现

# 初始化模型、优化器和损失函数
model = GIN(hidden_channels=64, num_node_features=dataset.num_features, num_classes=dataset.num_classes)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
criterion = torch.nn.CrossEntropyLoss()

def train():
    model.train()
    total_loss = 0
    for data in train_loader:  # 批处理图数据
        out = model(data.x, data.edge_index, data.batch)  # 前向传播
        loss = criterion(out, data.y.squeeze())  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
        optimizer.zero_grad()  # 清空梯度
        total_loss += loss.item()
    return total_loss / len(train_loader)

def test(loader):
    model.eval()
    correct = 0
    for data in loader:  # 批处理图数据
        out = model(data.x, data.edge_index, data.batch)  # 前向传播
        pred = out.argmax(dim=1)  # 获取预测类别
        correct += int((pred == data.y.squeeze()).sum())  # 计算正确预测数
    return correct / len(loader.dataset)  # 返回准确率

# 训练模型
for epoch in range(1, 201):
    loss = train()
    train_acc = test(train_loader)
    test_acc = test(test_loader)
    if epoch % 10 == 0:
        print(f"Epoch: {epoch:03d}, Loss: {loss:.4f}, Train Acc: {train_acc:.4f}, Test Acc: {test_acc:.4f}")

图神经网络的内部工作机制

图神经网络通过消息传递机制学习节点表示，以下是GIN模型的工作流程：

图中展示了节点特征如何通过注意力机制进行传播和更新：

节点特征通过线性变换生成查询(Q)、键(K)和值(V)
计算注意力权重矩阵，反映节点间的重要性关系
通过空间编码和边编码捕捉图的结构信息
聚合邻居信息更新节点表示

进阶探索：高级应用与优化策略

3分钟速览

GraphGPS模型结合MPNN和Transformer优势，提升复杂图任务性能
点云数据处理需要特殊的采样和分组策略
分布式训练和高级采样技术可处理大规模图数据
官方提供丰富的进阶示例和评估工具

GraphGPS：混合图神经网络架构

GraphGPS模型创新性地结合了MPNN（消息传递神经网络）和Transformer的优势，在分子性质预测等任务中表现优异。其核心架构如下：

该架构包含两个并行分支：

MPNN分支：通过GatedGCN/GINE/PNA等层捕获局部图结构
Transformer分支：使用全局注意力机制建模长距离依赖关系
融合机制：通过残差连接和批归一化整合两个分支的特征

实现代码可参考examples/graph_gps.py，核心配置如下：

from torch_geometric.nn import GPSConv

class GraphGPS(torch.nn.Module):
    def __init__(self, hidden_channels, num_heads, num_layers):
        super().__init__()
        self.convs = torch.nn.ModuleList()
        for _ in range(num_layers):
            conv = GPSConv(
                hidden_channels,
                GATConv(hidden_channels, hidden_channels // num_heads, heads=num_heads),
                dropout=0.1,
                attn_type='performer',
                heads=num_heads,
            )
            self.convs.append(conv)
        # 其他层定义...

点云数据处理：从采样到特征提取

PyG不仅支持传统图结构数据，还能处理三维点云数据。点云处理的典型流程包括采样、分组和特征提取三个阶段：

以PointNet模型为例，点云处理代码示例：

from torch_geometric.transforms import SamplePoints
from torch_geometric.datasets import ModelNet

# 加载点云数据集
dataset = ModelNet(root='data/ModelNet', name='10', transform=SamplePoints(num=1024))

# 点云模型定义
from torch_geometric.nn import PointNetConv, global_max_pool

class PointNet(torch.nn.Module):
    def __init__(self, hidden_channels, num_classes):
        super().__init__()
        self.conv1 = PointNetConv(3, hidden_channels, add_self_loops=False)
        self.conv2 = PointNetConv(hidden_channels, hidden_channels, add_self_loops=False)
        self.classifier = torch.nn.Linear(hidden_channels, num_classes)

    def forward(self, x, pos, batch):
        x = self.conv1(x, pos, batch)
        x = x.relu()
        x = self.conv2(x, pos, batch)
        x = global_max_pool(x, batch)  # 全局最大池化
        return self.classifier(x)

大规模图数据处理策略

处理百万级节点的大规模图时，需要采用特殊策略：

邻居采样：使用NeighborLoader仅加载部分邻居节点

from torch_geometric.loader import NeighborLoader
loader = NeighborLoader(
    data,
    num_neighbors=[20, 10],  # 每层采样的邻居数
    batch_size=128,
    input_nodes=data.train_mask,
)

分布式训练：通过distributed模块实现多GPU/多节点训练

# 参考示例: examples/distributed/pyg/

图分区：将大图分割为子图进行并行处理

# 参考工具: torch_geometric.distributed.partition

学习路径与资源推荐

入门阶段（1-2周）

官方教程：examples/目录下的基础示例
核心概念：torch_geometric/data/中的数据结构
基础模型：GCN、GAT等经典图卷积网络实现

进阶阶段（1-2个月）

高级模型：GraphGPS、PNA等复杂架构
领域应用：分子图、点云、异构图任务
优化技术：批处理、采样策略、混合精度训练

专家阶段（3-6个月）

源码贡献：参与PyG开源项目开发
前沿研究：实现最新图神经网络论文
工业落地：大规模图数据处理与部署

延伸探索：

异构图学习：examples/hetero/目录
图解释性：examples/explain/目录
时序图模型：examples/tgn.py

通过循序渐进的学习和实践，你将能够掌握图神经网络的核心技术，并将其应用于实际问题解决。PyG提供的丰富工具和示例将是你探索图深度学习领域的得力助手。

pytorch_geometric

Graph Neural Network Library for PyTorch

项目地址：https://gitcode.com/GitHub_Trending/py/pytorch_geometric

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

425

376

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.65 K

971

PyTorch Geometric入门指南：从基础到实践的图神经网络开发

基础认知：图神经网络的核心概念

3分钟速览

从社交网络到分子结构：图数据的直观理解

图神经网络与传统深度学习的关键差异

核心操作：PyG实战开发流程

3分钟速览

环境配置：5分钟完成安装

分子图分类实战：数据加载与预处理

构建GIN模型：图同构网络实现

模型训练与评估：完整流程实现

图神经网络的内部工作机制

进阶探索：高级应用与优化策略

3分钟速览

GraphGPS：混合图神经网络架构

点云数据处理：从采样到特征提取

大规模图数据处理策略

学习路径与资源推荐

入门阶段（1-2周）

进阶阶段（1-2个月）

专家阶段（3-6个月）

热门内容推荐

最新内容推荐

项目优选

PyTorch Geometric入门指南：从基础到实践的图神经网络开发

基础认知：图神经网络的核心概念

3分钟速览

从社交网络到分子结构：图数据的直观理解

图神经网络与传统深度学习的关键差异

核心操作：PyG实战开发流程

3分钟速览

环境配置：5分钟完成安装

分子图分类实战：数据加载与预处理

构建GIN模型：图同构网络实现

模型训练与评估：完整流程实现

图神经网络的内部工作机制

进阶探索：高级应用与优化策略

3分钟速览

GraphGPS：混合图神经网络架构

点云数据处理：从采样到特征提取

大规模图数据处理策略

学习路径与资源推荐

入门阶段（1-2周）

进阶阶段（1-2个月）

专家阶段（3-6个月）

相关内容推荐

热门内容推荐

最新内容推荐

项目优选