Optax项目中AdamW优化器的参数掩码技术解析

2025-07-07 20:25:15作者：邬祺芯Juliet

Optax是一个专为JAX设计的高效优化与梯度处理库，旨在推动机器学习研究的边界。通过提供一系列简单、测试完善的底层构建模块，Optax让研究人员能灵活组合自定义优化策略和梯度处理方案，从而加速新算法的实验与应用。无论是行业专家还是新手，都能利用Optax轻松实现从经典到前沿的优化算法。其设计理念侧重于模块的小型化与可组合性，使每个人都能贡献新想法，简化复杂的训练流程。快速上手，无论是Adam优化器还是L2损失函数，Optax都能即刻助力你的模型训练更进一步。欢迎加入这个活跃的开源社区，共同探索深度学习的优化之道。

项目地址：https://gitcode.com/gh_mirrors/opt/optax

背景介绍

在深度学习模型训练过程中，权重衰减(Weight Decay)是一种常用的正则化技术，用于防止模型过拟合。Optax作为JAX生态系统中的优化器库，提供了AdamW优化器的实现，该优化器将权重衰减与Adam优化器分离处理。然而，在实际应用中，我们经常需要对模型参数进行选择性掩码，只对特定参数应用权重衰减。

问题本质

在使用Equinox构建的模型中，开发者希望实现以下功能：

对线性层(eqx.nn.Linear)的所有参数应用权重衰减
对层归一化(eqx.nn.LayerNorm)的偏置(bias)应用权重衰减
对其他参数不应用权重衰减

技术挑战

直接使用Optax的mask参数时遇到了两个主要问题：

当mask是PyTree结构时，Optax内部处理会出现异常
使用AdamW优化器时，update函数需要显式传入当前参数值，这与Adam等优化器的使用方式不同

解决方案演进

临时解决方案

在Optax修复PR合并前，可以通过修改_src/wrappers.py中的两处代码临时解决问题：

将mask_tree = mask(params) if callable(mask) else mask简化为mask_tree = mask
同样简化另一处mask处理逻辑

官方修复

Optax项目通过PR #1015彻底解决了这个问题，主要改进包括：

正确处理PyTree结构的mask参数
保持mask功能在各种优化器中的一致性

最佳实践

使用AdamW优化器时，需要注意以下关键点：

参数传递：AdamW的update函数需要显式传入当前参数值

updates, opt_state = optimizer.update(grads, opt_state, params)

掩码构建：建议使用Equinox的过滤功能构建掩码

params = eqx.filter(model, eqx.is_array)
mask = jtu.tree_map(set_mask, params, is_leaf=is_layer)

优化器初始化：正确初始化带掩码的优化器

optim = optax.adamw(learning_rate=1e-4, mask=mask)
opt_state = optim.init(params)

技术细节解析

掩码函数设计

有效的掩码函数应该能够：

识别不同类型的层结构
对不同参数应用不同的掩码策略
保持与模型参数相同的PyTree结构

示例掩码函数：

def set_mask(x):
    if isinstance(x, eqx.nn.Linear):
        return jtu.tree_map(lambda _: True, x)
    elif isinstance(x, eqx.nn.LayerNorm):
        mask = jtu.tree_map(lambda _: False, x)
        mask = eqx.tree_at(lambda m: m.bias, mask, True)
        return mask
    else:
        return jtu.tree_map(lambda _: False, x)