深度学习中梯度检查差异问题的根源分析——以deep-learning-from-scratch项目为例

2025-06-14 19:28:55作者：蔡丛锟

在神经网络训练过程中，梯度检查（Gradient Check）是验证反向传播算法正确性的重要手段。近期在实现《深度学习入门：基于Python的理论与实现》项目时，发现梯度数值计算（grad_numerical）与反向传播梯度（grad_backprop）存在显著差异，特别是偏置项b2的差异高达0.27。经过深入排查，发现这是由于softmax函数版本不兼容导致的典型问题。

问题现象

当使用两层神经网络进行MNIST分类时，模型训练可以正常收敛并获得良好准确率，但梯度检查环节出现异常：

权重矩阵W1/W2的差异在可接受范围（0.0008-0.013）
偏置项b1/b2的差异异常增大（0.004-0.27）

根本原因

问题根源在于softmax函数的实现版本。原项目中使用的是针对单样本的旧版实现：

def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c)
    sum_exp_a = np.sum(exp_a)
    return exp_a / sum_exp_a

而现代神经网络通常需要处理批量数据（batch），这就要求softmax能够支持二维数组输入。当使用旧版softmax处理batch数据时：

np.max(a)会返回整个batch的最大值，而非每个样本的最大值
导致数值计算不稳定，反向传播梯度出现偏差
偏置项梯度受此影响尤为明显

解决方案

升级softmax实现为支持batch处理的版本：

def softmax(x):
    if x.ndim == 2:
        x = x - x.max(axis=1, keepdims=True)
        x = np.exp(x)
        x /= x.sum(axis=1, keepdims=True)
    else:
        x = x - np.max(x)
        x = np.exp(x) / np.sum(np.exp(x))
    return x