首页
/ 机器学习项目笔记:逻辑回归与Softmax回归原理详解

机器学习项目笔记:逻辑回归与Softmax回归原理详解

2025-06-07 16:08:27作者:姚月梅Lane

逻辑回归理论基础

逻辑回归(Logistic Regression)是机器学习中经典的分类算法,虽然名称中带有"回归"二字,但它实际上是一种用于解决二分类问题的线性模型。下面我们将深入探讨其核心原理。

模型函数推导

逻辑回归模型基于Sigmoid函数构建,其数学表达式为:

fw,b(x)=Pw,b(c1x)=g(z)=11+ezf_{w,b}(x) = P_{w,b}(c_1|x) = g(z) = \frac{1}{1+e^{-z}}

其中:

  • z=i=0dwixi+bz = \sum_{i=0}^{d}w_ix_i + b 是线性组合
  • dd 表示特征维度
  • wwbb 是需要学习的参数

Sigmoid函数将线性输出zz映射到(0,1)区间,可以解释为样本属于类别c1c_1的概率。

最大似然估计与损失函数

逻辑回归采用最大似然法进行参数估计。对于N个样本的训练集,似然函数为:

L(w,b)=i=1NP(yixi;w,b)L_{(w,b)} = \prod_{i=1}^N P(y^i|x^i;w,b)

取负对数后得到交叉熵损失函数:

J(w,b)=1mi=1m[yilnf(xi)+(1yi)ln(1f(xi))]J(w,b) = -\frac{1}{m}\sum_{i=1}^m [y^i\ln f(x^i) + (1-y^i)\ln(1-f(x^i))]

这个损失函数具有良好的数学性质:

  1. 当预测值与真实值差距大时,梯度也大,参数更新快
  2. 是凸函数,能保证梯度下降找到全局最优解

梯度下降算法推导

通过求导可以得到参数的更新规则:

wi:=wiηn=1N(f(xn)yn)xinw_i := w_i - \eta \sum_{n=1}^N (f(x^n)-y^n)x_i^n

其中η\eta是学习率。这个更新规则形式简洁,计算高效,适合大规模数据。

为什么选择交叉熵而非平方误差

初学者可能会疑惑为何不使用熟悉的平方误差作为损失函数,主要原因有二:

  1. 梯度特性差异:交叉熵在预测错误时提供更大的梯度,加速学习;而平方误差在预测严重错误时梯度反而很小,导致学习缓慢。

  2. 凸性保证:交叉熵损失是凸函数,保证能找到全局最优;平方误差会导致非凸的损失面,容易陷入局部最优。

下图直观展示了两种损失函数的差异:

交叉熵损失:陡峭→平缓
平方误差:平缓→更平缓→陡峭

Softmax回归:多分类扩展

当分类问题超过两类时,我们需要使用Softmax回归,它是逻辑回归在多分类问题上的推广。

Softmax函数定义

Softmax函数将K个实数映射为概率分布:

Si=eVij=1KeVjS_i = \frac{e^{V_i}}{\sum_{j=1}^K e^{V_j}}

其中ViV_i是第i类的得分。Softmax确保:

  1. 所有输出在(0,1)区间
  2. 所有输出之和为1

交叉熵损失函数

多分类问题中使用类别交叉熵:

Loss=i=1KyilnSiLoss = -\sum_{i=1}^K y_i \ln S_i

其中yiy_i是真实标签的one-hot编码,SiS_i是预测概率。

梯度推导

Softmax的梯度计算较为复杂,但推导后可以得到简洁的表达式:

LossVi=Siyi\frac{\partial Loss}{\partial V_i} = S_i - y_i

这与二分类逻辑回归的梯度形式高度一致,体现了算法的一致性。

代码实现要点

在实际实现时需要注意:

  1. 数值稳定性:计算指数时可能溢出,通常实现时会减去最大值:

    exp_scores = np.exp(z - np.max(z, axis=1, keepdims=True))
    
  2. 正则化:通常加入L2正则项防止过拟合:

    reg_loss = 0.5 * reg * np.sum(W * W)
    
  3. 批量处理:使用矩阵运算加速计算,避免循环。

应用场景对比

  • 逻辑回归:二分类问题,如垃圾邮件识别、疾病诊断
  • Softmax回归:多类别互斥分类,如手写数字识别、图像分类

理解这两种算法的原理和实现细节,是掌握分类问题的基础,也为学习更复杂的神经网络模型奠定了重要基础。

登录后查看全文
热门项目推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
149
1.95 K
kernelkernel
deepin linux kernel
C
22
6
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
980
395
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
192
274
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
931
555
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
145
190
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
75
66
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
65
518
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.11 K
0