深入理解D2L项目中的自注意力机制与位置编码

2025-06-04 23:33:24作者：舒璇辛Bertina

引言

在深度学习领域，处理序列数据一直是一个核心问题。传统的循环神经网络(RNN)和卷积神经网络(CNN)在处理序列时各有优缺点。本文将深入探讨D2L项目中介绍的自注意力机制(self-attention)和位置编码(positional encoding)技术，这是现代Transformer架构的基础组成部分。

自注意力机制

自注意力机制是一种特殊的注意力机制，它允许序列中的每个元素直接与其他所有元素进行交互，而无需像RNN那样逐步处理。

基本原理

给定一个输入序列 $\mathbf{x}_1, \ldots, \mathbf{x}_n$ ，其中每个 $\mathbf{x}_i \in \mathbb{R}^d$ ，自注意力机制会输出一个相同长度的序列 $\mathbf{y}_1, \ldots, \mathbf{y}_n$ ，其中：

\mathbf{y}_i = f(\mathbf{x}_i, (\mathbf{x}_1, \mathbf{x}_1), \ldots, (\mathbf{x}_n, \mathbf{x}_n)) \in \mathbb{R}^d

这里的 $f$ 是注意力汇聚函数。关键在于查询(query)、键(key)和值(value)都来自同一个输入序列。

实现示例

在D2L项目中，使用多头注意力(MultiHeadAttention)实现自注意力的代码如下：

num_hiddens, num_heads = 100, 5
attention = d2l.MultiHeadAttention(num_hiddens, num_hiddens, num_hiddens,
                                  num_hiddens, num_heads, 0.5)

这个实现可以处理形状为(批量大小, 时间步数, 隐藏单元数)的张量，输出保持相同形状。

不同架构的比较

CNN、RNN和自注意力的对比

计算复杂度：
- CNN： $\mathcal{O}(knd^2)$ （k为卷积核大小）
- RNN： $\mathcal{O}(nd^2)$
- 自注意力： $\mathcal{O}(n^2d)$
顺序操作：
- CNN： $\mathcal{O}(1)$ （高度并行化）
- RNN： $\mathcal{O}(n)$ （必须顺序处理）
- 自注意力： $\mathcal{O}(1)$ （完全并行）
最大路径长度（信息传递需要的最长路径）：
- CNN： $\mathcal{O}(n/k)$ （分层结构）
- RNN： $\mathcal{O}(n)$
- 自注意力： $\mathcal{O}(1)$ （直接连接）

自注意力的优势在于其强大的并行能力和短的最大路径长度，但缺点是对于长序列的二次计算复杂度。

位置编码

由于自注意力机制本身不包含序列顺序信息，我们需要引入位置编码来注入位置信息。

正弦位置编码

D2L项目中采用的正弦位置编码定义如下：

对于位置 $i$ 和维度 $2 j$ 或 $2 j + 1$ ：

\begin{aligned} p_{i, 2j} &= \sin\left(\frac{i}{10000^{2j/d}}\right),\\ p_{i, 2j+1} &= \cos\left(\frac{i}{10000^{2j/d}}\right). \end{aligned}

实现代码

D2L中的位置编码实现如下：

class PositionalEncoding(nn.Module):
    def __init__(self, num_hiddens, dropout, max_len=1000):
        super().__init__()
        self.dropout = nn.Dropout(dropout)
        self.P = d2l.zeros((1, max_len, num_hiddens))
        X = d2l.arange(max_len).reshape(-1, 1) / torch.pow(
            10000, torch.arange(0, num_hiddens, 2) / num_hiddens)
        self.P[:, :, 0::2] = torch.sin(X)
        self.P[:, :, 1::2] = torch.cos(X)