首页
/ 机器学习项目笔记:逻辑回归与Softmax回归原理详解

机器学习项目笔记:逻辑回归与Softmax回归原理详解

2025-06-07 16:08:27作者:姚月梅Lane

逻辑回归理论基础

逻辑回归(Logistic Regression)是机器学习中经典的分类算法,虽然名称中带有"回归"二字,但它实际上是一种用于解决二分类问题的线性模型。下面我们将深入探讨其核心原理。

模型函数推导

逻辑回归模型基于Sigmoid函数构建,其数学表达式为:

fw,b(x)=Pw,b(c1x)=g(z)=11+ezf_{w,b}(x) = P_{w,b}(c_1|x) = g(z) = \frac{1}{1+e^{-z}}

其中:

  • z=i=0dwixi+bz = \sum_{i=0}^{d}w_ix_i + b 是线性组合
  • dd 表示特征维度
  • wwbb 是需要学习的参数

Sigmoid函数将线性输出zz映射到(0,1)区间,可以解释为样本属于类别c1c_1的概率。

最大似然估计与损失函数

逻辑回归采用最大似然法进行参数估计。对于N个样本的训练集,似然函数为:

L(w,b)=i=1NP(yixi;w,b)L_{(w,b)} = \prod_{i=1}^N P(y^i|x^i;w,b)

取负对数后得到交叉熵损失函数:

J(w,b)=1mi=1m[yilnf(xi)+(1yi)ln(1f(xi))]J(w,b) = -\frac{1}{m}\sum_{i=1}^m [y^i\ln f(x^i) + (1-y^i)\ln(1-f(x^i))]

这个损失函数具有良好的数学性质:

  1. 当预测值与真实值差距大时,梯度也大,参数更新快
  2. 是凸函数,能保证梯度下降找到全局最优解

梯度下降算法推导

通过求导可以得到参数的更新规则:

wi:=wiηn=1N(f(xn)yn)xinw_i := w_i - \eta \sum_{n=1}^N (f(x^n)-y^n)x_i^n

其中η\eta是学习率。这个更新规则形式简洁,计算高效,适合大规模数据。

为什么选择交叉熵而非平方误差

初学者可能会疑惑为何不使用熟悉的平方误差作为损失函数,主要原因有二:

  1. 梯度特性差异:交叉熵在预测错误时提供更大的梯度,加速学习;而平方误差在预测严重错误时梯度反而很小,导致学习缓慢。

  2. 凸性保证:交叉熵损失是凸函数,保证能找到全局最优;平方误差会导致非凸的损失面,容易陷入局部最优。

下图直观展示了两种损失函数的差异:

交叉熵损失:陡峭→平缓
平方误差:平缓→更平缓→陡峭

Softmax回归:多分类扩展

当分类问题超过两类时,我们需要使用Softmax回归,它是逻辑回归在多分类问题上的推广。

Softmax函数定义

Softmax函数将K个实数映射为概率分布:

Si=eVij=1KeVjS_i = \frac{e^{V_i}}{\sum_{j=1}^K e^{V_j}}

其中ViV_i是第i类的得分。Softmax确保:

  1. 所有输出在(0,1)区间
  2. 所有输出之和为1

交叉熵损失函数

多分类问题中使用类别交叉熵:

Loss=i=1KyilnSiLoss = -\sum_{i=1}^K y_i \ln S_i

其中yiy_i是真实标签的one-hot编码,SiS_i是预测概率。

梯度推导

Softmax的梯度计算较为复杂,但推导后可以得到简洁的表达式:

LossVi=Siyi\frac{\partial Loss}{\partial V_i} = S_i - y_i

这与二分类逻辑回归的梯度形式高度一致,体现了算法的一致性。

代码实现要点

在实际实现时需要注意:

  1. 数值稳定性:计算指数时可能溢出,通常实现时会减去最大值:

    exp_scores = np.exp(z - np.max(z, axis=1, keepdims=True))
    
  2. 正则化:通常加入L2正则项防止过拟合:

    reg_loss = 0.5 * reg * np.sum(W * W)
    
  3. 批量处理:使用矩阵运算加速计算,避免循环。

应用场景对比

  • 逻辑回归:二分类问题,如垃圾邮件识别、疾病诊断
  • Softmax回归:多类别互斥分类,如手写数字识别、图像分类

理解这两种算法的原理和实现细节,是掌握分类问题的基础,也为学习更复杂的神经网络模型奠定了重要基础。

登录后查看全文
热门项目推荐