首页
/ CS231n课程笔记:优化方法(1) - 损失函数可视化与梯度下降

CS231n课程笔记:优化方法(1) - 损失函数可视化与梯度下降

2025-06-24 22:20:53作者:曹令琨Iris

引言

在图像分类任务中,我们通常会遇到三个核心要素:

  1. 评分函数(Score Function):将原始图像像素映射为分类得分的参数化函数(如线性函数)
  2. 损失函数(Loss Function):衡量特定参数在训练数据上的预测结果与真实标签的匹配程度
  3. 优化方法(Optimization):寻找能最小化损失函数的参数的过程

本文将重点探讨第三个要素——优化方法,特别是梯度下降及其变种。

损失函数的可视化理解

高维空间中的损失函数难以直接可视化,但我们可以通过切片技术获得一些直观认识:

一维可视化

随机选择一个权重矩阵W(高维空间中的一个点),沿某个随机方向W₁移动,计算不同位置a的损失值L(W + aW₁),绘制a与L的关系曲线。

二维可视化

选择两个随机方向W₁和W₂,计算L(W + aW₁ + bW₂),用a和b作为坐标轴,用颜色表示损失值。

对于SVM损失函数,其特点是分段线性(piecewise linear),这是由于max(0,-)函数造成的。例如对于一个三类别三样本的例子:

L_0 = max(0, w₁x₀ - w₀x₀ + 1) + max(0, w₂x₀ - w₀x₀ + 1)
L_1 = max(0, w₀x₁ - w₁x₁ + 1) + max(0, w₂x₁ - w₁x₁ + 1) 
L_2 = max(0, w₀x₂ - w₂x₂ + 1) + max(0, w₁x₂ - w₂x₂ + 1)
L = (L₀ + L₁ + L₂)/3

这种结构导致损失函数在参数空间呈现"碗状"地形,但扩展到神经网络后,地形会变得更加复杂和非凸。

优化策略探索

1. 随机搜索(最差方法)

bestloss = float("inf")
for num in range(1000):
    W = np.random.randn(10, 3073) * 0.0001
    loss = L(X_train, Y_train, W)
    if loss < bestloss:
        bestloss = loss
        bestW = W

这种方法在CIFAR-10上仅能达到15.5%的准确率,远优于随机猜测(10%),但效率极低。

2. 随机局部搜索

W = np.random.randn(10, 3073) * 0.001
bestloss = float("inf")
for i in range(1000):
    step_size = 0.0001
    Wtry = W + np.random.randn(10, 3073) * step_size
    loss = L(Xtr_cols, Ytr, Wtry)
    if loss < bestloss:
        W = Wtry
        bestloss = loss

这种方法达到了21.4%的准确率,但仍不够高效。

3. 梯度跟随(最佳方法)

最有效的策略是计算损失函数的梯度,沿着梯度下降的方向更新参数。这类似于在山上蒙眼下山时,通过感受脚下坡度来确定最陡下降方向。

梯度计算

数值梯度法(有限差分法)

def eval_numerical_gradient(f, x):
    fx = f(x)
    grad = np.zeros(x.shape)
    h = 0.00001
    
    it = np.nditer(x, flags=['multi_index'])
    while not it.finished:
        ix = it.multi_index
        old_value = x[ix]
        x[ix] = old_value + h
        fxh = f(x)
        x[ix] = old_value
        
        grad[ix] = (fxh - fx) / h
        it.iternext()
        
    return grad

特点:

  • 实现简单,但计算代价高(需O(n)次函数评估)
  • 结果是近似值
  • 通常用于梯度检查

解析梯度法

对于SVM损失函数,我们可以直接推导梯度公式:

正确类别的权重梯度:

∇_{w_{y_i}} L_i = - (∑_{j≠y_i} 1(w_j^T x_i - w_{y_i}^T x_i + Δ > 0)) x_i

错误类别的权重梯度:

∇_{w_j} L_i = 1(w_j^T x_i - w_{y_i}^T x_i + Δ > 0) x_i

特点:

  • 计算精确且快速
  • 实现容易出错,需要与数值梯度法验证

梯度下降优化

基本形式

while True:
    weights_grad = evaluate_gradient(loss_fun, data, weights)
    weights += - step_size * weights_grad

小批量梯度下降(Mini-batch GD)

while True:
    data_batch = sample_training_data(data, 256) # 256个样本
    weights_grad = evaluate_gradient(loss_fun, data_batch, weights)
    weights += - step_size * weights_grad

优势:

  • 更频繁的参数更新
  • 计算效率更高(利用向量化操作)
  • 实践中最常用

随机梯度下降(SGD)

小批量大小为1的极端情况,实际中较少使用,因为无法充分利用向量化计算的优势。

关键概念总结

  1. 梯度方向:函数值增长最速方向,负梯度方向即下降最速方向
  2. 步长(学习率):最重要的超参数之一,过大导致震荡,过小收敛缓慢
  3. 梯度计算:数值法简单但低效,解析法高效但需验证
  4. 批量处理:利用数据相关性提高计算效率

在后续学习中,我们将探讨更先进的优化算法(如动量法、自适应方法等),这些方法都是在基本梯度下降基础上的改进。理解这些基础概念对于掌握深度学习优化至关重要。

登录后查看全文
热门项目推荐

项目优选

收起
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
52
455
kernelkernel
deepin linux kernel
C
22
5
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
349
381
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
7
0
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
131
185
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
873
517
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
335
1.09 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
179
264
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
607
59
note-gennote-gen
一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
83
4