Optax项目中的Polyak SGD优化器改进：引入正部子优间隙选项

2025-07-07 22:22:56作者：姚月梅Lane

Optax是一个专为JAX设计的高效优化与梯度处理库，旨在推动机器学习研究的边界。通过提供一系列简单、测试完善的底层构建模块，Optax让研究人员能灵活组合自定义优化策略和梯度处理方案，从而加速新算法的实验与应用。无论是行业专家还是新手，都能利用Optax轻松实现从经典到前沿的优化算法。其设计理念侧重于模块的小型化与可组合性，使每个人都能贡献新想法，简化复杂的训练流程。快速上手，无论是Adam优化器还是L2损失函数，Optax都能即刻助力你的模型训练更进一步。欢迎加入这个活跃的开源社区，共同探索深度学习的优化之道。

项目地址：https://gitcode.com/gh_mirrors/opt/optax

在深度学习优化领域，Optax作为Google DeepMind开发的高效优化库，近期针对其Polyak SGD优化器提出了一个重要改进。本文将深入解析这一技术改进的背景、原理及实现意义。

Polyak SGD优化器是基于Polyak步长理论的随机梯度下降变体，其核心思想是利用目标函数值与最优值之间的子优间隙(f(x)-f*)来自适应调整学习率。传统实现中直接使用这个间隙值，而新改进则引入了只取正部的变体。

技术团队提出的改进方案是将原始子优间隙替换为其正部，即max{f(x)-f*, 0}。这一改进源于Garrigos等学者在2023年提出的SPS+方法理论研究成果。从数学角度看，这种处理具有两个显著优势：

稳定性增强：当当前函数值意外低于理论最优值时（可能由于噪声或估计误差），传统方法会产生负学习率，而正部处理避免了这种不合理情况。
理论保证：研究证明这种改进在某些条件下能保持收敛性，同时提供更鲁棒的优化行为。

在实现层面，这个新特性被命名为"plus"选项，与原始论文中的SPS+命名保持一致。用户可以通过简单设置参数来启用这一功能，使得优化器在遇到复杂优化地形时表现更加稳定。

这项改进特别适合以下场景：

存在显著噪声的优化问题
最优值估计不够精确的情况
非凸优化问题中可能出现局部最优值低于全局最优值估计的情形

从算法实现角度看，这个改进只需要在前向传播阶段增加一个简单的max操作，计算开销几乎可以忽略不计，却能为优化过程带来实质性的稳健性提升。

Optax团队已经完成了这一改进的代码实现，展示了该开源项目对最新优化理论成果的快速响应能力。这为使用Optax进行深度学习研究的用户提供了更强大的优化工具选择。

optax

项目地址：https://gitcode.com/gh_mirrors/opt/optax

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统