机器学习项目笔记：逻辑回归与Softmax回归原理详解

2025-06-07 21:46:17作者：姚月梅Lane

逻辑回归理论基础

逻辑回归（Logistic Regression）是机器学习中经典的分类算法，虽然名称中带有"回归"二字，但它实际上是一种用于解决二分类问题的线性模型。下面我们将深入探讨其核心原理。

逻辑回归模型基于Sigmoid函数构建，其数学表达式为：

$f_{w,b}(x) = P_{w,b}(c_1|x) = g(z) = \frac{1}{1+e^{-z}}$

其中：

Sigmoid函数将线性输出 $z$ 映射到(0,1)区间，可以解释为样本属于类别 $c_{1}$ 的概率。

逻辑回归采用最大似然法进行参数估计。对于N个样本的训练集，似然函数为：

$L_{(w,b)} = \prod_{i=1}^N P(y^i|x^i;w,b)$

取负对数后得到交叉熵损失函数：

$J(w,b) = -\frac{1}{m}\sum_{i=1}^m [y^i\ln f(x^i) + (1-y^i)\ln(1-f(x^i))]$

这个损失函数具有良好的数学性质：

通过求导可以得到参数的更新规则：

$w_i := w_i - \eta \sum_{n=1}^N (f(x^n)-y^n)x_i^n$

其中 $\eta$ 是学习率。这个更新规则形式简洁，计算高效，适合大规模数据。

初学者可能会疑惑为何不使用熟悉的平方误差作为损失函数，主要原因有二：

下图直观展示了两种损失函数的差异：

交叉熵损失：陡峭→平缓
平方误差：平缓→更平缓→陡峭

当分类问题超过两类时，我们需要使用Softmax回归，它是逻辑回归在多分类问题上的推广。

Softmax函数将K个实数映射为概率分布：

$S_i = \frac{e^{V_i}}{\sum_{j=1}^K e^{V_j}}$

其中 $V_{i}$ 是第i类的得分。Softmax确保：

多分类问题中使用类别交叉熵：

$Loss = -\sum_{i=1}^K y_i \ln S_i$

其中 $y_{i}$ 是真实标签的one-hot编码， $S_{i}$ 是预测概率。

Softmax的梯度计算较为复杂，但推导后可以得到简洁的表达式：

$\frac{\partial Loss}{\partial V_i} = S_i - y_i$

这与二分类逻辑回归的梯度形式高度一致，体现了算法的一致性。

在实际实现时需要注意：

数值稳定性：计算指数时可能溢出，通常实现时会减去最大值：
```
exp_scores = np.exp(z - np.max(z, axis=1, keepdims=True))
```
正则化：通常加入L2正则项防止过拟合：
```
reg_loss = 0.5 * reg * np.sum(W * W)
```
批量处理：使用矩阵运算加速计算，避免循环。