UDLBook项目中的Nesterov动量优化器公式修正探讨

2025-05-30 12:12:11作者：卓炯娓

Understanding Deep Learning - Simon J.D. Prince

项目地址：https://gitcode.com/gh_mirrors/ud/udlbook

引言

在深度学习优化算法中，动量方法(Momentum)及其改进版本Nesterov动量是广泛使用的优化技术。UDLBook作为一本权威的深度学习教材，其第一版中关于Nesterov动量优化器的公式表述引起了读者的讨论和思考。

原始公式分析

UDLBook第一版中的公式6.12描述了Nesterov动量优化器的更新过程。该公式分为两个部分：

动量更新部分：
$m_t = \beta \cdot m_{t-1} + (1-\beta) \cdot \sum_{i \in B_t} \frac{\partial l_i[\phi_t - \alpha \cdot m_t]}{\partial \phi}$
参数更新部分：
$\phi_{t+1} = \phi_t - \alpha \cdot m_t$

其中， $\phi_t$ 表示第t步的参数， $m_{t}$ 是动量项， $\alpha$ 是学习率， $\beta$ 是动量系数， $B_{t}$ 是当前batch， $l_{i}$ 是第i个样本的损失函数。

问题发现

细心的读者nickzooot指出，按照Nesterov动量的原始思想，在计算梯度时应该使用"前瞻位置" $\phi_t - \alpha \beta \cdot m_t$ ，而不是 $\phi_t - \alpha \cdot m_t$ 。这是因为Nesterov动量的核心思想是先沿着动量方向迈出一大步，然后在这个"前瞻位置"计算梯度进行修正。

技术验证

为了验证这一观点，我们可以将整个Nesterov动量更新过程合并为一个公式：

\phi_{t+1} = \phi_t - \alpha \beta \cdot m_t - \alpha (1-\beta) \cdot \sum_{i \in B_t}\frac{ \partial{l_i[\phi_t -\alpha \beta \cdot m_t]}}{\partial{\phi}}

从这个合并后的公式可以更清楚地看出，Nesterov动量实际上是：

先沿着动量方向迈出 $\alpha \beta \cdot m_t$ 的一步
在这个新位置计算梯度
用这个梯度进行 $\alpha (1-\beta)$ 的修正

修正方案

基于上述分析，作者Simon Prince确认了读者的观点是正确的，并在最新版本中进行了修正。修正后的动量更新部分应为：

m_t = \beta \cdot m_{t-1} + (1-\beta) \cdot \sum_{i \in B_t} \frac{\partial l_i[\phi_t - \alpha \beta \cdot m_t]}{\partial \phi}

实际影响

虽然这一修正从理论上看更加准确，但在实际应用中，由于学习率 $\alpha$ 通常较小，且动量系数 $\beta$ 接近1，两者的差异 $\alpha \beta$ 与 $\alpha$ 在实际效果上差别不大。不过，对于追求理论严谨性的教材来说，这样的修正是必要且有价值的。

总结

这个案例展示了深度学习领域中理论与实践相结合的重要性。UDLBook作为权威教材，能够及时采纳读者建议进行修正，体现了学术严谨性。同时，这也提醒我们在学习优化算法时，不仅要理解公式的表面形式，更要深入理解其背后的数学原理和物理意义。

Nesterov动量作为经典动量方法的改进版，其核心思想是通过"前瞻"来获得更准确的梯度估计，从而在某些情况下获得更快的收敛速度。这种对优化算法细节的关注，正是深度学习研究不断进步的动力之一。

Understanding Deep Learning - Simon J.D. Prince

项目地址：https://gitcode.com/gh_mirrors/ud/udlbook

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库