探索高效深度学习优化器：RAdam - 融合了RMSProp与Adam的优点

2026-01-14 17:32:25作者：卓炯娓

On the Variance of the Adaptive Learning Rate and Beyond

项目地址：https://gitcode.com/gh_mirrors/ra/RAdam

在深度学习领域，优化器的选择往往对模型训练的速度和效果起到决定性作用。（Rectified Adam）是一个由李源卢卡斯柳(Liyuan Lucas Liu)等人提出的优化算法，它结合了RMSProp的平滑性和Adam的适应性，旨在解决在大规模数据集和复杂网络结构中遇到的训练问题。

项目简介

RAdam是针对Adam优化器的一种改进版本，主要解决了Adam在初期迭代时可能表现不佳的问题。通过引入一个修正项，RAdam能够在训练开始阶段更好地调整学习率，使模型能够更快地收敛到有效区域。

技术分析

在传统的Adam优化器中，动量和二阶矩估计（即v和s)会在初始化时被设置为0，这可能导致在学习率较大的情况下，模型在早期迭代中过于激进。而RAdam引入了一个新的概念——warm-up（预热），它不是简单地线性增加学习率，而是通过对RMSProp的动量和二阶矩估计进行校正来实现的。

具体来说，RAdam引入了一个参数β1 t，其中β1是Adam中的动量参数，t是当前迭代步数。当乘以β1 t后，可以避免在初期由于动量项过小导致的更新不足。同时，RAdam也考虑到了二阶矩估计的影响，引入了一个类似的修正项。这种设计使得RAdam在训练初期更加稳定，后续则保持了Adam的高效率。

应用场景

RAdam适用于各种深度学习任务，包括但不限于图像分类、自然语言处理、生成对抗网络等。尤其在需要大量计算资源和时间的大规模模型训练中，其优势更为明显。由于其优秀的初始收敛性能，RAdam也被广泛应用于预训练模型如BERT和GPT系列的训练过程中。

特点

更好的初期稳定性：通过引入预热机制，RAdam能够在训练早期提供更稳定的更新，减少训练过程中的波动。
结合RMSProp的优势：继承了RMSProp在处理非凸损失函数和平滑动态学习率方面的优点。
自适应性更强：类似于Adam，RAdam能够根据每个参数的历史梯度信息自适应地调整学习率。
易于实施：RAdam是对现有Adam优化器的一个微调，不需要大幅度修改现有的代码库，只需简单替换即可。

结语

RAdam是一个值得尝试的深度学习优化器，尤其是在你已经习惯于使用Adam并希望进一步提升训练效率时。它的设计原理和实证效果表明，它可以成为你在深度学习项目中的得力工具。如果你正在寻找提高模型训练速度或改善模型性能的方法，不妨试试RAdam，让您的神经网络训练更加高效、稳健。

On the Variance of the Adaptive Learning Rate and Beyond

项目地址：https://gitcode.com/gh_mirrors/ra/RAdam

登录后查看全文

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

昇腾LLM分布式训练框架

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

ohos_react_native

React Native鸿蒙化仓库

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统