Flax NNX框架中支持Optax L-BFGS优化器的技术实现

2025-06-02 14:39:31作者：殷蕙予

背景介绍

Flax NNX作为JAX生态系统中的神经网络库，提供了灵活的模块系统和训练工具。在实际应用中，二阶优化算法如L-BFGS因其收敛速度快、不需要手动调整学习率等优势，在特定场景下比一阶优化器表现更优。然而，NNX默认的优化器接口与Optax提供的L-BFGS实现存在兼容性问题。

问题本质

Optax中的L-BFGS及其相关优化器实现了GradientTransformationExtraArgs接口，这与常规优化器使用的GradientTransformation接口不同。关键区别在于：

需要额外的value_fn参数来计算目标函数值
要求传入当前梯度grad和目标函数值value
使用optax.value_and_grad_from_state进行梯度计算

这种接口差异导致无法直接在NNX的Optimizer中使用这类优化算法。

技术解决方案

临时解决方案

通过扩展Optimizer.update方法，可以临时支持L-BFGS类优化器：

def update(self, grads, value=None, value_fn=None):
    # 分离模型定义和参数状态
    gdef, state = nnx.split(self.model, self.wrt)
    
    # 包装value_fn以处理NNX状态
    def value_fn_wrapped(state):
        model = nnx.merge(gdef, state)
        return value_fn(model)
    
    # 调用优化器更新，传递额外参数
    updates, new_opt_state = self.tx.update(
        grads, self.opt_state, state, 
        grad=grads, value=value, value_fn=value_fn_wrapped
    )
    
    # 应用参数更新
    new_params = optax.apply_updates(state, updates)
    self.step.value += 1
    nnx.update(self.model, new_params)
    self.opt_state = new_opt_state

这种方法的核心在于：

正确处理NNX的状态分离与合并
适配value_fn的接口要求
传递优化器所需的所有额外参数

更优的架构设计

从框架设计角度，更完善的解决方案应考虑：

接口扩展：为Optimizer.update添加**kwargs参数，直接转发给底层优化器
专用优化器类：为GradientTransformationExtraArgs实现专门的优化器包装
文档示例：提供使用模式的最佳实践指南

实际应用示例

以下是在NNX中使用L-BFGS优化器的完整示例：

# 模型定义
model = nnx.Linear(M, 1, use_bias=False, rngs=rngs)
optimizer = nnx.Optimizer(model, optax.lbfgs())

# 训练步骤
@nnx.jit
def train_step(model, optimizer, X, Y):
    def loss_fn(model):
        return jnp.mean((model(X) - Y)**2)
    
    loss, grads = nnx.value_and_grad(loss_fn)(model)
    optimizer.update(grads, value=loss, value_fn=loss_fn)
    return loss