首页
/ 机器学习项目笔记:逻辑回归与Softmax回归原理详解

机器学习项目笔记:逻辑回归与Softmax回归原理详解

2025-06-07 16:08:27作者:姚月梅Lane

逻辑回归理论基础

逻辑回归(Logistic Regression)是机器学习中经典的分类算法,虽然名称中带有"回归"二字,但它实际上是一种用于解决二分类问题的线性模型。下面我们将深入探讨其核心原理。

模型函数推导

逻辑回归模型基于Sigmoid函数构建,其数学表达式为:

fw,b(x)=Pw,b(c1x)=g(z)=11+ezf_{w,b}(x) = P_{w,b}(c_1|x) = g(z) = \frac{1}{1+e^{-z}}

其中:

  • z=i=0dwixi+bz = \sum_{i=0}^{d}w_ix_i + b 是线性组合
  • dd 表示特征维度
  • wwbb 是需要学习的参数

Sigmoid函数将线性输出zz映射到(0,1)区间,可以解释为样本属于类别c1c_1的概率。

最大似然估计与损失函数

逻辑回归采用最大似然法进行参数估计。对于N个样本的训练集,似然函数为:

L(w,b)=i=1NP(yixi;w,b)L_{(w,b)} = \prod_{i=1}^N P(y^i|x^i;w,b)

取负对数后得到交叉熵损失函数:

J(w,b)=1mi=1m[yilnf(xi)+(1yi)ln(1f(xi))]J(w,b) = -\frac{1}{m}\sum_{i=1}^m [y^i\ln f(x^i) + (1-y^i)\ln(1-f(x^i))]

这个损失函数具有良好的数学性质:

  1. 当预测值与真实值差距大时,梯度也大,参数更新快
  2. 是凸函数,能保证梯度下降找到全局最优解

梯度下降算法推导

通过求导可以得到参数的更新规则:

wi:=wiηn=1N(f(xn)yn)xinw_i := w_i - \eta \sum_{n=1}^N (f(x^n)-y^n)x_i^n

其中η\eta是学习率。这个更新规则形式简洁,计算高效,适合大规模数据。

为什么选择交叉熵而非平方误差

初学者可能会疑惑为何不使用熟悉的平方误差作为损失函数,主要原因有二:

  1. 梯度特性差异:交叉熵在预测错误时提供更大的梯度,加速学习;而平方误差在预测严重错误时梯度反而很小,导致学习缓慢。

  2. 凸性保证:交叉熵损失是凸函数,保证能找到全局最优;平方误差会导致非凸的损失面,容易陷入局部最优。

下图直观展示了两种损失函数的差异:

交叉熵损失:陡峭→平缓
平方误差:平缓→更平缓→陡峭

Softmax回归:多分类扩展

当分类问题超过两类时,我们需要使用Softmax回归,它是逻辑回归在多分类问题上的推广。

Softmax函数定义

Softmax函数将K个实数映射为概率分布:

Si=eVij=1KeVjS_i = \frac{e^{V_i}}{\sum_{j=1}^K e^{V_j}}

其中ViV_i是第i类的得分。Softmax确保:

  1. 所有输出在(0,1)区间
  2. 所有输出之和为1

交叉熵损失函数

多分类问题中使用类别交叉熵:

Loss=i=1KyilnSiLoss = -\sum_{i=1}^K y_i \ln S_i

其中yiy_i是真实标签的one-hot编码,SiS_i是预测概率。

梯度推导

Softmax的梯度计算较为复杂,但推导后可以得到简洁的表达式:

LossVi=Siyi\frac{\partial Loss}{\partial V_i} = S_i - y_i

这与二分类逻辑回归的梯度形式高度一致,体现了算法的一致性。

代码实现要点

在实际实现时需要注意:

  1. 数值稳定性:计算指数时可能溢出,通常实现时会减去最大值:

    exp_scores = np.exp(z - np.max(z, axis=1, keepdims=True))
    
  2. 正则化:通常加入L2正则项防止过拟合:

    reg_loss = 0.5 * reg * np.sum(W * W)
    
  3. 批量处理:使用矩阵运算加速计算,避免循环。

应用场景对比

  • 逻辑回归:二分类问题,如垃圾邮件识别、疾病诊断
  • Softmax回归:多类别互斥分类,如手写数字识别、图像分类

理解这两种算法的原理和实现细节,是掌握分类问题的基础,也为学习更复杂的神经网络模型奠定了重要基础。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
178
262
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
867
513
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
183
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
265
305
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
note-gennote-gen
一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
83
4
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
598
57
GitNextGitNext
基于可以运行在OpenHarmony的git,提供git客户端操作能力
ArkTS
10
3