PML-Book深度学习教材中的RNN与Transformer章节勘误与解析

2025-06-08 19:11:09作者：胡易黎Nicole

引言

在深度学习领域，概率机器学习教材(PML-Book)因其系统性和深度而广受好评。本文针对该书第15章关于循环神经网络(RNN)和Transformer架构的部分内容进行技术勘误与解析，帮助读者更准确地理解这些重要概念。

梯度消失与爆炸问题

原书中关于RNN梯度问题的描述存在一处拼写错误："Unforunately"应更正为"Unfortunately"。关于"forwards"的使用，在技术文献中"forward"更为常见，特指神经网络前向传播过程。

梯度消失和爆炸是RNN训练中的经典问题，当序列长度增加时，梯度在反向传播过程中会指数级衰减或增长。这种现象直接影响了RNN处理长序列的能力，也是LSTM和GRU等门控机制被提出的主要原因。

注意力机制中的维度问题

书中第518页关于注意力机制中Q、K、V矩阵维度的描述需要修正。正确的矩阵乘法维度关系应为：

给定输入X ∈ R^(m×v)，通过线性变换得到： Q = X @ Wq ∈ R^(m×q) K = X @ Wk ∈ R^(m×q) V = X @ Wv ∈ R^(m×v)

其中Wq ∈ R^(v×q)，Wk ∈ R^(v×q)，Wv ∈ R^(v×v)是可学习的参数矩阵。这一修正对于理解自注意力机制的计算过程至关重要。

序列长度与位置编码

第528页关于位置编码的示例中，序列长度描述应为n=8而非n=3。位置编码是Transformer架构的关键组件，它将序列中每个token的位置信息编码为固定维度的向量，使模型能够利用序列的顺序信息。

典型的位置编码使用不同频率的正弦和余弦函数： PE(pos,2i) = sin(pos/10000^(2i/d)) PE(pos,2i+1) = cos(pos/10000^(2i/d))

其中pos是位置，i是维度索引，d是嵌入维度。

局部注意力复杂度分析

第534页关于局部注意力复杂度的描述中，"N^2/K"应表述为"O(N^2/K)"，强调这是渐近时间复杂度。局部注意力通过将输入序列划分为K个块，在每个块内计算注意力，将全局注意力的O(N^2)复杂度降低为O(N^2/K)，显著提高了长序列处理的效率。

BERT预训练任务澄清

第539页关于BERT的掩码语言模型(MLM)任务的描述需要澄清：BERT实际采用的是随机掩码策略，对输入序列中约15%的token进行随机掩码（替换为[MASK]），而非"保留第t个词而省略其他所有词"。这种设计使模型必须根据上下文来预测被掩码的词，从而学习更丰富的语言表示。

下游任务微调

第540页"downtream"应更正为"downstream"。BERT等预训练语言模型通过在下游任务（如文本分类、问答等）上进行微调，展现出强大的迁移学习能力。这种预训练-微调范式已成为现代NLP的标准方法。

结语

本文对PML-Book第15章中的技术细节进行了勘误和解析，涉及RNN、注意力机制、Transformer架构及其变体等核心内容。准确的数学表述和概念理解对于掌握这些深度学习模型至关重要。希望这些修正能够帮助读者更深入地理解现代序列建模技术。

pml-book

"Probabilistic Machine Learning" - a book series by Kevin Murphy

项目地址：https://gitcode.com/gh_mirrors/pm/pml-book

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.25 K

677