Optax项目中softmax交叉熵损失函数对负无穷大logits的处理问题分析

2025-07-07 11:54:44作者：沈韬淼Beryl

Optax是一个专为JAX设计的高效优化与梯度处理库，旨在推动机器学习研究的边界。通过提供一系列简单、测试完善的底层构建模块，Optax让研究人员能灵活组合自定义优化策略和梯度处理方案，从而加速新算法的实验与应用。无论是行业专家还是新手，都能利用Optax轻松实现从经典到前沿的优化算法。其设计理念侧重于模块的小型化与可组合性，使每个人都能贡献新想法，简化复杂的训练流程。快速上手，无论是Adam优化器还是L2损失函数，Optax都能即刻助力你的模型训练更进一步。欢迎加入这个活跃的开源社区，共同探索深度学习的优化之道。

项目地址：https://gitcode.com/gh_mirrors/opt/optax

问题背景

在深度学习框架Optax中，softmax交叉熵损失函数在处理包含负无穷大(-inf)的logits时存在一个数值稳定性问题。当某个logit为负无穷大且对应的标签为0时，当前实现会错误地返回NaN，而理论上这种情况下应该返回0。

问题重现

考虑以下简单示例：

logits = jnp.array([-jnp.inf, 0])
labels = jnp.array([0, 1])

当前Optax实现会返回NaN，而理论上应该返回0，因为：

第一个logit为负无穷大，但对应标签为0，根据交叉熵定义，0*log(0)应该被视为0
第二个logit为0，对应标签为1，这部分计算正常

技术分析

数学原理

交叉熵损失的数学表达式为：

H(p,q) = -Σ p_i * log(q_i)

其中p是真实分布(标签)，q是预测分布(softmax输出)。当p_i=0时，无论q_i为何值(包括0)，按照数学约定，该项应为0。

当前实现问题

Optax当前实现直接使用log_softmax后与标签相乘，当logits包含负无穷大时：

计算log_softmax会在对应位置得到负无穷大
与0标签相乘时，0*(-inf)会产生NaN，而不是预期的0

解决方案探讨

经过讨论，提出了几种可能的解决方案：

使用xlogy函数：直接利用JAX提供的xlogy函数，它专门处理x*log(y)在x=0时的特殊情况
条件判断法：在计算时显式检查标签是否为0，如果是则强制结果为0
数学等价变换：将交叉熵表示为logsumexp减去加权logits和，并处理标签为0的情况

实现挑战

在尝试修复此问题时，遇到了以下技术挑战：

梯度计算问题：简单的条件判断会破坏梯度传播，特别是对标签的梯度计算
数值稳定性：修改后的实现在某些边缘情况下可能导致数值不稳定
向后兼容性：改变广泛使用的基础损失函数可能影响现有模型的训练行为

最佳实践建议

对于需要在logits中使用负无穷大进行掩码的场景(如RL中的动作屏蔽)，建议：

使用clip函数限制logits范围，避免出现极端值
如果必须使用负无穷大，考虑自定义损失函数处理特殊情况
在模型训练过程中监控损失值的变化，特别是出现NaN时

总结

数值稳定性是深度学习实现中的重要考虑因素。Optax中的softmax交叉熵函数在处理极端值时需要特别注意，特别是在标签为0的情况下。虽然理论上存在完美的数学解决方案，但在实际实现中需要平衡数学正确性、数值稳定性和计算效率。这个问题也提醒我们，在使用深度学习框架时，对于边缘情况的处理需要特别关注。

optax

项目地址：https://gitcode.com/gh_mirrors/opt/optax

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.24 K

680