Optax优化器库中RMSProp与AdamW的优化改进

2025-07-07 14:55:58作者：温艾琴Wonderful

在深度学习优化器领域，Google DeepMind的Optax项目近期针对RMSProp和AdamW优化器进行了两项重要改进。这些改进不仅提升了算法效率，还优化了内存使用，对于大规模模型训练具有重要意义。

RMSProp与Adam的缩放一致性改进

传统RMSProp优化器与Adam优化器在参数更新时的缩放方式存在差异。RMSProp使用平方梯度的指数移动平均(EMA)进行参数更新，而Adam在此基础上还引入了动量项。当Adam的动量项β1设置为0时，理论上它应该退化为与RMSProp类似的行为，但实际实现中两者的缩放因子存在细微差别。

Optax通过修改RMSProp的实现，使其在β1=0时能够产生与Adam完全一致的参数更新。这一改进使得：

算法行为更加一致
便于研究人员在不同优化器间进行公平比较
为后续优化器组合提供了更好的基础

Schedule-Free AdamW的内存优化

AdamW是Adam优化器的改进版本，通过解耦权重衰减与梯度更新，在许多任务中表现出更好的泛化性能。Optax中的schedule_free_adamw实现原本需要额外的内存槽来存储中间状态。

通过重构代码，现在schedule_free_adamw可以直接复用RMSProp的内部状态，从而：

减少了一个内存槽的使用
降低了内存占用
提高了计算效率
保持了完全相同的数学行为

技术实现细节

在底层实现上，这些改进主要涉及：

统一梯度缩放因子的计算方式
重构状态管理逻辑
确保数值稳定性
维持向后兼容性

对于深度学习从业者来说，这些改进意味着可以在不改变现有代码的情况下获得更好的性能和内存效率。特别是对于训练大型语言模型(LLM)或需要长时间训练的模型，内存优化带来的收益更为明显。

实际应用建议

在实际应用中，研究人员可以：

直接使用最新版Optax中的优化器
在对比实验时，注意优化器版本的一致性
对于内存敏感的任务，优先考虑使用优化后的版本
在迁移现有项目时，验证新版本的行为是否符合预期

这些改进展示了Optax项目持续优化深度学习基础设施的努力，也为后续的优化器研究提供了更好的基础。

optax

Optax is a gradient processing and optimization library for JAX.

项目地址：https://gitcode.com/gh_mirrors/op/optax

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

128

174

Optax优化器库中RMSProp与AdamW的优化改进

RMSProp与Adam的缩放一致性改进

Schedule-Free AdamW的内存优化

技术实现细节

实际应用建议

热门内容推荐

最新内容推荐

项目优选

Optax优化器库中RMSProp与AdamW的优化改进

RMSProp与Adam的缩放一致性改进

Schedule-Free AdamW的内存优化

技术实现细节

实际应用建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选