革命性符号优化器：为什么Lion比传统自适应学习率更高效

2026-02-05 04:47:37作者：裘旻烁

还在为深度学习中复杂的优化器参数调优而烦恼吗？AdamW、Adafactor等自适应学习率优化器虽然强大，但超参数敏感、内存占用大、运行速度慢。Google Brain AutoML团队通过符号程序搜索发现的Lion（EvoLved Sign Momentum）优化器，正在重新定义优化算法的设计范式！

读完本文你将获得：

Lion优化器的核心原理和工作机制
相比传统优化器的显著优势对比
实际应用中的超参数调优指南
多领域性能表现验证

Lion优化器的核心突破

Lion优化器通过符号程序搜索自动发现，其核心创新在于使用符号(sign)操作替代传统的梯度缩放。从算法实现lion/lion_pytorch.py可以看到：

# 权重更新：使用符号操作
update = exp_avg * beta1 + grad * (1 - beta1)
p.add_(update.sign_(), alpha=-group['lr'])

这种设计产生了三个关键优势：

内存效率翻倍：仅需保存动量，无需二阶矩估计
运行速度提升：简化计算，获得2-15%的速度提升
数值稳定性增强：符号操作避免梯度爆炸问题

性能表现全面超越

图像分类领域

在ImageNet数据集上，Lion在多种架构上都超越了AdamW。ViT-L/16模型在使用Lion训练后，达到了之前ViT-H/14使用AdamW的性能，而模型大小仅为一半！

大规模预训练优势

在JFT-300M数据集上，Lion节省了高达5倍的预训练成本，这在大模型时代具有重要意义。

多模态学习突破

在视觉-语言对比学习任务中，Lion在多个零样本图像分类和图文检索基准上均超越了AdamW。

实际应用调优指南

学习率设置

Lion的学习率通常比AdamW小3-10倍，这是由于其更新步长更大的特性：

Lion: lr=1e-4, λ=10.0
AdamW: lr=1e-3, λ=1.0

批量大小选择

Lion偏好较大的批量大小，但在小批量情况下仍表现稳健。实验表明，Lion在批量大小4,096时达到最佳性能，而AdamW的最佳批量大小为256。

超参数鲁棒性

Lion对超参数的选择更加鲁棒，这大大降低了调优难度，使其更适合实际生产环境。

技术实现细节

Lion在TensorFlow 2.0中的实现lion/lion_tf2.py展示了其简洁性：

# TensorFlow实现核心更新逻辑
update = m * coefficients['beta_1_t'] + grad * coefficients['one_minus_beta_1_t']
var_t = var.assign_sub(coefficients['lr'] * tf.math.sign(update))