深入理解d2l-ai项目中的Bahdanau注意力机制

2025-06-04 10:01:32作者：裴麒琰

引言

在序列到序列(seq2seq)学习任务中，传统的编码器-解码器架构存在一个关键问题：解码器在生成每个目标词时，都会使用相同的上下文向量，而这个向量是对整个输入序列的编码。这意味着无论当前生成哪个词，模型都会"关注"整个输入序列，这显然不是最优的。

Bahdanau注意力机制(也称为加性注意力)的提出解决了这一问题，它允许解码器在生成每个词时动态地关注输入序列中最相关的部分。本文将深入解析这一重要机制的技术原理和实现细节。

传统seq2seq架构的局限性

在传统RNN编码器-解码器架构中：

编码器将变长输入序列编码为一个固定长度的上下文向量
解码器基于该上下文向量逐步生成输出序列

这种架构存在明显缺陷：对于输出序列中的每个词，模型都使用相同的上下文信息，而实际上不同输出词可能需要关注输入序列的不同部分。

Bahdanau注意力的核心思想

Bahdanau等人提出的注意力机制通过以下方式改进了传统架构：

动态上下文向量：为每个解码时间步计算不同的上下文向量
注意力权重：基于当前解码状态和所有编码器状态计算注意力分布
加权求和：上下文向量是编码器状态的加权和，权重由注意力机制决定

数学表达式为：

\mathbf{c}_{t'} = \sum_{t=1}^T \alpha(\mathbf{s}_{t' - 1}, \mathbf{h}_t) \mathbf{h}_t

其中 $\alpha$ 是注意力权重函数， $\mathbf{s}_{t'-1}$ 是解码器上一时间步的隐藏状态， $\mathbf{h}_t$ 是编码器的隐藏状态。

注意力评分函数

Bahdanau注意力使用加性注意力评分函数：

将查询(解码器状态)和键(编码器状态)拼接后通过一个全连接层
使用tanh激活函数
再通过一个可学习的权重向量计算得分

具体实现为：

class AdditiveAttention(nn.Module):
    def __init__(self, num_hiddens, dropout):
        super().__init__()
        self.W_k = nn.Linear(num_hiddens, num_hiddens, bias=False)
        self.W_q = nn.Linear(num_hiddens, num_hiddens, bias=False)
        self.w_v = nn.Linear(num_hiddens, 1, bias=False)
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, queries, keys, values, valid_lens):
        queries, keys = self.W_q(queries), self.W_k(keys)
        features = queries.unsqueeze(2) + keys.unsqueeze(1)
        features = torch.tanh(features)
        scores = self.w_v(features).squeeze(-1)
        self.attention_weights = masked_softmax(scores, valid_lens)
        return torch.bmm(self.dropout(self.attention_weights), values)

带注意力的解码器实现

在d2l-ai项目中，带Bahdanau注意力的解码器实现要点包括：

状态初始化：使用编码器的最终隐藏状态和所有时间步的输出
注意力计算：每个时间步用解码器上一状态作为查询
RNN输入：将注意力输出与当前输入词嵌入拼接后输入RNN

关键代码结构：

class Seq2SeqAttentionDecoder(AttentionDecoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers, dropout):
        super().__init__()
        self.attention = AdditiveAttention(num_hiddens, dropout)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(embed_size + num_hiddens, num_hiddens, num_layers, dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)
    
    def forward(self, X, state):
        # 实现前向传播逻辑
        # 包括注意力计算和RNN处理