探索PyTorch Grad-CAM：可视化深度学习模型的注意力区域

2026-01-14 18:11:15作者：段琳惟

Advanced AI Explainability for computer vision. Support for CNNs, Vision Transformers, Classification, Object detection, Segmentation, Image similarity and more.

项目地址：https://gitcode.com/gh_mirrors/py/pytorch-grad-cam

在深度学习领域中，理解模型是如何做出决策的是一项关键任务。为此，的开源项目，它提供了一种强大的工具——Grad-CAM（Gradient-weighted Class Activation Mapping），用于可视化神经网络的激活区域，帮助我们洞察模型的工作机制。

项目简介

Grad-CAM 是一种解释深度学习模型预测的方法，通过计算特定类别输出层的梯度，来生成一个热力图，显示了模型在输入图像上关注的关键区域。pytorch-grad-cam 实现了这一方法，并提供了 PyTorch 框架下的简单易用接口，便于研究人员和开发者在自己的项目中应用。

技术分析

该项目的核心在于将梯度信息与卷积层的激活图相结合，以确定哪些像素对最终分类结果影响最大。具体步骤如下：

前向传播：首先，执行正常的前向传播过程以得到模型的预测结果。
反向传播：然后，对于感兴趣的类别，计算最后几个卷积层的激活图的梯度。
平均权重：根据每个激活图的梯度，为每个卷积层的通道分配权重。
上采样与加权求和：将加权后的激活图上采样到输入图像的大小，然后求和得到“类激活图”（CAM）。
归一化：最后，对 CAM 进行归一化，以生成可视化的热力图。

pytorch-grad-cam 库封装了这些步骤，只需要几行代码就能在任何预训练的 PyTorch 模型上实现 Grad-CAM 可视化。

from gradcam import GradCAM, Visualizer

model = ... # 加载你的模型
input_tensor = ... # 输入数据
target_category = ... # 目标类别

with torch.no_grad():
    output = model(input_tensor)
    cam = GradCAM(model=model, target_category=target_category)(input_tensor, output)

visualizer = Visualizer(img=input_tensor.permute(1, 2, 0))
heatmap = visualizer CAM_img=cam)