Vision Transformer注意力机制：从原理到可视化实践

2026-04-03 08:59:38作者：侯霆垣

核心原理：ViT如何"看见"世界？

当我们观察一张照片时，大脑会自动聚焦于重要区域——看风景照时注意山脉轮廓，看人像时关注面部表情。那么，Vision Transformer（ViT）作为模仿人类视觉系统的AI模型，是如何决定"看"哪里的？这种选择性关注的机制，正是ViT超越传统CNN的关键所在。

视觉Transformer的革命性架构

ViT将图像理解为"序列数据"而非网格像素，彻底改变了计算机视觉的处理范式。其核心创新在于将图像分割为固定大小的补丁（Patch），通过自注意力机制建立全局联系。

图1：ViT模型架构示意图，展示了从图像补丁到分类结果的完整流程。左侧为整体框架，右侧详细展示了Transformer编码器的内部结构，包含多头注意力和MLP模块。

架构解析：四步实现图像理解

图像补丁化：将输入图像分割为16×16或32×32的规则网格（如将224×224图像分为14×14个补丁）
嵌入转换：通过线性投影将每个补丁转换为固定维度的向量（Patch Embedding）
位置编码：添加可学习的位置信息，使模型理解补丁的空间关系
特征提取：通过多层Transformer编码器捕捉全局特征，最终通过分类令牌（Class Token）输出预测结果

定义+类比：自注意力机制就像会议中的交流过程——每个参会者（补丁）都会根据其他人的发言重要性（注意力权重）调整自己的关注点。在ViT中，每个图像补丁通过注意力权重动态关注其他补丁，形成对图像的整体理解。

注意力机制的数学原理

ViT的注意力计算遵循"查询-键-值"（Query-Key-Value）机制，核心公式如下：

注意力权重： $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

其中：

Q（查询）：当前补丁想要"了解"什么
K（键）：其他补丁能"提供"什么信息
V（值）：实际传递的信息内容
$d_{k}$ ：缩放因子，防止内积过大导致梯度消失

多头注意力通过并行计算多个注意力分布并拼接结果，使模型能够同时关注不同类型的特征关系。在vit_jax/models_vit.py中，这一机制通过分裂隐藏层维度实现，每个头负责学习不同的注意力模式。

实践操作：如何可视化ViT的"视线"？

理论理解之后，让我们通过实际操作生成注意力可视化结果。这个过程就像给AI装上"眼动追踪仪"，观察它在图像识别时的关注点。

环境准备与模型加载

1. 项目部署

git clone https://gitcode.com/gh_mirrors/vi/vision_transformer
cd vision_transformer
pip install -r vit_jax/requirements.txt

2. 模型准备

mkdir -p models
wget https://storage.googleapis.com/vit_models/imagenet21k/ViT-B_16.npz -O models/ViT-B_16.npz

常见问题：若下载速度慢，可使用国内镜像源或手动下载后放置到models目录。验证文件完整性可通过md5sum models/ViT-B_16.npz检查哈希值是否匹配。

注意力权重提取

以下代码片段展示了如何修改前向传播函数以获取注意力权重：

def get_attention_maps(params, image):
  # 运行模型并返回注意力权重
  _, attention_weights = model.apply(
    params, 
    image,
    train=False,
    return_attention=True
  )
  # 注意力权重形状: (层数, 批次, 头数, 序列长度, 序列长度)
  return attention_weights

常见问题：返回注意力权重会增加显存占用，建议在GPU环境下运行。对于较大模型（如ViT-L/16），可通过jax.device_put将参数分散到多个设备。

热力图生成与优化

基础可视化代码：

def create_attention_heatmap(image, attn_weights, patch_size=16):
  # 移除分类令牌，保留图像补丁注意力
  attn_weights = attn_weights[0, 1:, 1:]  # 假设取第一个样本的注意力
  
  # 转换为二维注意力图
  side_length = int(np.sqrt(attn_weights.shape[0]))
  attn_map = attn_weights.reshape(side_length, side_length, 
                                 side_length, side_length).mean(axis=(2,3))
  
  # 叠加热力图到原图
  fig, ax = plt.subplots(figsize=(10, 10))
  ax.imshow(image)
  ax.imshow(attn_map, cmap='viridis', alpha=0.6, 
            extent=[0, image.shape[1], image.shape[0], 0])
  ax.axis('off')
  return fig

常见问题：热力图分辨率低？尝试调整patch_size参数或使用双线性插值提升视觉效果。颜色映射推荐使用'viridis'或'plasma'以确保可读性。

深度分析：注意力模式的规律与启示

通过可视化结果，我们能发现ViT注意力分布的哪些规律？这些模式如何反映模型的决策过程？让我们从三个维度深入分析。

跨层注意力演化规律

不同Transformer层展现出截然不同的注意力模式，形成了从"局部观察"到"全局理解"的认知过程：

层类型	注意力特点	功能类比	典型可视化表现
底层（1-3层）	局部相邻补丁关注	边缘检测与纹理识别	小范围集中，类似CNN感受野
中层（4-8层）	区域特征整合	部件识别与形状分析	关注物体局部结构，如动物头部
高层（9-12层）	全局语义关联	整体理解与决策	聚焦关键判别区域，如鸟的喙部