数据科学入门教程：统计学与概率论基础精要

2026-02-04 04:02:23作者：冯梦姬Eddie

引言

统计学与概率论是数据科学的两大数学基石。虽然不深入数学也能处理数据，但掌握基本概念能让你事半功倍。本文将从零开始，带你系统理解数据科学所需的统计概率知识。

概率与随机变量

概率是描述事件发生可能性的数值，范围在0到1之间。计算方法是：有利结果数除以所有可能结果数（假设所有结果等可能）。例如掷骰子得到偶数的概率是3/6=0.5。

我们用随机变量表示随机事件的结果。比如掷骰子的结果可用随机变量X表示，其样本空间为{1,2,3,4,5,6}。随机变量分为：

离散型：可数样本空间（如骰子结果）
连续型：不可数样本空间（如公交车到站时间）

概率分布

离散分布

离散随机变量的概率分布可用函数P(X=s)描述。最著名的离散分布是均匀分布，每个结果的概率相等。

连续分布

连续变量的概率描述更复杂。精确时间点的概率为0，我们只能计算区间概率。连续分布用**概率密度函数p(x)**表示：

概率密度函数

重要连续分布包括：

均匀分布：区间内等概率
正态分布：钟形曲线分布（后文详述）

数据特征描述

集中趋势

均值：所有数据的算术平均
中位数：将数据分为两半的值
众数：出现最频繁的值（适合类别数据）

离散程度

方差：数据与均值距离平方的平均
标准差：方差的平方根

四分位数

Q1：25%数据低于此值
Q3：75%数据低于此值
IQR = Q3-Q1
异常值：超出[Q1-1.5IQR, Q3+1.5IQR]的值

箱线图可直观展示这些统计量：

箱线图示例

正态分布

现实中的许多测量值（如身高、体重）都服从正态分布（高斯分布），其特点：

钟形对称曲线
由均值(μ)和标准差(σ)决定形状
68-95-99.7规则：数据落在μ±σ、μ±2σ、μ±3σ内的概率分别为68%、95%、99.7%

正态分布

置信区间

由于样本不能完全代表总体，我们需要置信区间来估计总体参数。置信区间是一个范围，表示总体参数以特定概率落在此区间内。

计算步骤：

确定置信水平（如95%）
查t分布表得临界值
计算区间：样本均值±临界值×标准误差

示例（棒球运动员体重）：

置信水平	体重均值区间
85%	201.73±0.94
90%	201.73±1.08
95%	201.73±1.28

假设检验

当我们观察到两组数据有差异时（如一垒手比二垒手高），需要验证这是真实差异还是随机误差。基本步骤：

建立原假设H₀（如"两组身高无差异"）
选择检验方法（如t检验）
计算检验统计量（如t值）
比较p值与显著性水平（通常0.05）
- p<0.05：拒绝H₀，差异显著
- p≥0.05：无法拒绝H₀

Python实现示例：

from scipy.stats import ttest_ind
tval, pval = ttest_ind(group1, group2)
print(f"t值={tval:.2f}, p值={pval:.4f}")

大数定律与中心极限定理

大数定律

当试验次数趋近无穷时，事件发生的频率趋近其理论概率。

中心极限定理

无论原始分布如何，当样本量足够大时，样本均值的分布趋近正态分布。这是许多统计方法的基础。

实际应用建议

探索数据时先绘制直方图和箱线图
比较组间差异时使用适当的假设检验
报告结果时提供置信区间而不仅是点估计
注意数据是否符合检验方法的假设条件（如正态性）

掌握这些基础概念，你就能更自信地处理数据科学项目中的统计问题了！

Data-Science-For-Beginners

10 Weeks, 20 Lessons, Data Science for All!

项目地址：https://gitcode.com/GitHub_Trending/da/Data-Science-For-Beginners

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

数据科学入门教程：统计学与概率论基础精要

引言

概率与随机变量

概率分布

离散分布

连续分布

数据特征描述

集中趋势

离散程度

四分位数

正态分布

置信区间

假设检验

大数定律与中心极限定理

大数定律

中心极限定理

实际应用建议

热门内容推荐

最新内容推荐

项目优选

数据科学入门教程：统计学与概率论基础精要

引言

概率与随机变量

概率分布

离散分布

连续分布

数据特征描述

集中趋势

离散程度

四分位数

正态分布

置信区间

假设检验

大数定律与中心极限定理

大数定律

中心极限定理

实际应用建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选