CS231n课程笔记：优化方法(1) - 损失函数可视化与梯度下降

2025-06-24 07:01:16作者：曹令琨Iris

引言

在图像分类任务中，我们通常会遇到三个核心要素：

评分函数(Score Function)：将原始图像像素映射为分类得分的参数化函数（如线性函数）
损失函数(Loss Function)：衡量特定参数在训练数据上的预测结果与真实标签的匹配程度
优化方法(Optimization)：寻找能最小化损失函数的参数的过程

本文将重点探讨第三个要素——优化方法，特别是梯度下降及其变种。

损失函数的可视化理解

高维空间中的损失函数难以直接可视化，但我们可以通过切片技术获得一些直观认识：

一维可视化

随机选择一个权重矩阵W（高维空间中的一个点），沿某个随机方向W₁移动，计算不同位置a的损失值L(W + aW₁)，绘制a与L的关系曲线。

二维可视化

选择两个随机方向W₁和W₂，计算L(W + aW₁ + bW₂)，用a和b作为坐标轴，用颜色表示损失值。

对于SVM损失函数，其特点是分段线性(piecewise linear)，这是由于max(0,-)函数造成的。例如对于一个三类别三样本的例子：

L_0 = max(0, w₁x₀ - w₀x₀ + 1) + max(0, w₂x₀ - w₀x₀ + 1)
L_1 = max(0, w₀x₁ - w₁x₁ + 1) + max(0, w₂x₁ - w₁x₁ + 1) 
L_2 = max(0, w₀x₂ - w₂x₂ + 1) + max(0, w₁x₂ - w₂x₂ + 1)
L = (L₀ + L₁ + L₂)/3

这种结构导致损失函数在参数空间呈现"碗状"地形，但扩展到神经网络后，地形会变得更加复杂和非凸。

优化策略探索

1. 随机搜索（最差方法）

bestloss = float("inf")
for num in range(1000):
    W = np.random.randn(10, 3073) * 0.0001
    loss = L(X_train, Y_train, W)
    if loss < bestloss:
        bestloss = loss
        bestW = W

这种方法在CIFAR-10上仅能达到15.5%的准确率，远优于随机猜测(10%)，但效率极低。

2. 随机局部搜索

W = np.random.randn(10, 3073) * 0.001
bestloss = float("inf")
for i in range(1000):
    step_size = 0.0001
    Wtry = W + np.random.randn(10, 3073) * step_size
    loss = L(Xtr_cols, Ytr, Wtry)
    if loss < bestloss:
        W = Wtry
        bestloss = loss

这种方法达到了21.4%的准确率，但仍不够高效。

3. 梯度跟随（最佳方法）

最有效的策略是计算损失函数的梯度，沿着梯度下降的方向更新参数。这类似于在山上蒙眼下山时，通过感受脚下坡度来确定最陡下降方向。

梯度计算

数值梯度法（有限差分法）

def eval_numerical_gradient(f, x):
    fx = f(x)
    grad = np.zeros(x.shape)
    h = 0.00001
    
    it = np.nditer(x, flags=['multi_index'])
    while not it.finished:
        ix = it.multi_index
        old_value = x[ix]
        x[ix] = old_value + h
        fxh = f(x)
        x[ix] = old_value
        
        grad[ix] = (fxh - fx) / h
        it.iternext()
        
    return grad

特点：

实现简单，但计算代价高（需O(n)次函数评估）
结果是近似值
通常用于梯度检查

解析梯度法

对于SVM损失函数，我们可以直接推导梯度公式：

正确类别的权重梯度：

∇_{w_{y_i}} L_i = - (∑_{j≠y_i} 1(w_j^T x_i - w_{y_i}^T x_i + Δ > 0)) x_i

错误类别的权重梯度：

∇_{w_j} L_i = 1(w_j^T x_i - w_{y_i}^T x_i + Δ > 0) x_i

特点：

计算精确且快速
实现容易出错，需要与数值梯度法验证

梯度下降优化

基本形式

while True:
    weights_grad = evaluate_gradient(loss_fun, data, weights)
    weights += - step_size * weights_grad

小批量梯度下降(Mini-batch GD)

while True:
    data_batch = sample_training_data(data, 256) # 256个样本
    weights_grad = evaluate_gradient(loss_fun, data_batch, weights)
    weights += - step_size * weights_grad

优势：

更频繁的参数更新
计算效率更高（利用向量化操作）
实践中最常用

随机梯度下降(SGD)

小批量大小为1的极端情况，实际中较少使用，因为无法充分利用向量化计算的优势。

关键概念总结

梯度方向：函数值增长最速方向，负梯度方向即下降最速方向
步长（学习率）：最重要的超参数之一，过大导致震荡，过小收敛缓慢
梯度计算：数值法简单但低效，解析法高效但需验证
批量处理：利用数据相关性提高计算效率

在后续学习中，我们将探讨更先进的优化算法（如动量法、自适应方法等），这些方法都是在基本梯度下降基础上的改进。理解这些基础概念对于掌握深度学习优化至关重要。

登录后查看全文

CS231n课程笔记：优化方法(1) - 损失函数可视化与梯度下降

引言

损失函数的可视化理解

一维可视化

二维可视化

优化策略探索

1. 随机搜索（最差方法）

2. 随机局部搜索

3. 梯度跟随（最佳方法）

梯度计算

数值梯度法（有限差分法）

解析梯度法

梯度下降优化

基本形式

小批量梯度下降(Mini-batch GD)

随机梯度下降(SGD)

关键概念总结

热门内容推荐

最新内容推荐

项目优选

CS231n课程笔记：优化方法(1) - 损失函数可视化与梯度下降

引言

损失函数的可视化理解

一维可视化

二维可视化

优化策略探索

1. 随机搜索（最差方法）

2. 随机局部搜索

3. 梯度跟随（最佳方法）

梯度计算

数值梯度法（有限差分法）

解析梯度法

梯度下降优化

基本形式

小批量梯度下降(Mini-batch GD)

随机梯度下降(SGD)

关键概念总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选