首页
/ distributions3项目中的双样本Z检验详解

distributions3项目中的双样本Z检验详解

2025-06-19 23:18:52作者:农烁颖Land

前言

在统计学中,Z检验是一种常用的假设检验方法,用于比较样本均值与总体均值或两个样本均值之间的差异。本文将基于distributions3项目中的双样本Z检验案例,详细介绍其原理、实现步骤和实际应用。

案例背景

假设一位学生想研究生物学教授和英语教授谁更了解网络流行文化(memes)。为此,该学生设计了一份meme知识测试问卷,并分别对14位生物学教授和18位英语教授进行了测试。

生物学教授得分如下: 3, 7, 11, 0, 7, 0, 4, 5, 6, 2, 4, 7, 2, 9

英语教授得分如下: 5, 5, 4, 5, 4, 5, 7, 2, 6, 2, 2, 7, 2, 6, 4, 2, 5, 2

已知生物学教授得分的总体方差σ²₁=3,英语教授得分的总体方差σ²₂=2。

正态性检验

在进行Z检验前,我们需要确认样本均值是否服从正态分布。根据中心极限定理,当样本量足够大(通常认为n≥30)时,样本均值近似服从正态分布。但本例中两个样本量都小于30,因此需要进行正态性检验。

Q-Q图检验

我们使用正态分位数-分位数图(Q-Q图)来检验数据是否来自正态分布:

biology <- c(3, 7, 11, 0, 7, 0, 4, 5, 6, 2, 4, 7, 2, 9)
english <- c(8, 5, 4, 10, 4, 5, 7, 2, 6, 1, 2, 7, 0, 6, 4, 12, 5, 2)

qqnorm(biology)
qqline(biology)

qqnorm(english)
qqline(english)

从Q-Q图可以看出,两组数据点都基本落在参考线附近,没有明显的系统性偏离,因此可以认为两组数据都近似服从正态分布。

箱线图可视化

我们还可以使用箱线图直观比较两组数据:

library(ggplot2)

test_results <- data.frame(
  score = c(biology, english),
  department = c(
    rep("biology", length(biology)),
    rep("english", length(english))
)

ggplot(test_results, aes(x = department, y = score, color = department)) +
  geom_boxplot() +
  geom_jitter() +
  scale_color_brewer(type = "qual", palette = 2) +
  theme_minimal() +
  theme(legend.position = "none")

从箱线图可以看出,两组数据的分布中心(中位数)和离散程度都比较接近,初步判断两组均值可能没有显著差异。

假设检验

建立假设

我们设定:

  • 零假设H₀:μ₁ - μ₂ = 0(两组均值无差异)
  • 备择假设H₁:μ₁ - μ₂ ≠ 0(两组均值有差异)

计算Z统计量

双样本Z检验的统计量公式为:

Z = (x̄₁ - x̄₂ - δ₀) / √(σ₁²/n₁ + σ₂²/n₂)

其中δ₀为假设的均值差(本例中为0),σ₁²和σ₂²为已知的总体方差,n₁和n₂为样本量。

在R中计算:

delta_0 <- 0
sigma_sq_1 <- 3
sigma_sq_2 <- 2
n_1 <- length(biology)
n_2 <- length(english)

z_stat <- (mean(biology) - mean(english) - delta_0) / 
  sqrt(sigma_sq_1 / n_1 + sigma_sq_2 / n_2)

计算得到的Z统计量约为-0.376。

p值计算

对于双侧检验,p值为P(|Z| ≥ |z_stat|)。使用distributions3包计算:

library(distributions3)
Z <- Normal(0, 1)  # 标准正态分布

# 方法1
1 - cdf(Z, abs(z_stat)) + cdf(Z, -abs(z_stat))

# 方法2:利用对称性
2 * cdf(Z, -abs(z_stat))

两种方法得到的p值约为0.707,远大于常用的显著性水平0.05,因此不能拒绝零假设,即没有足够证据表明两组教授的meme知识水平存在显著差异。

单侧检验

有时我们可能需要进行单侧检验:

  1. 检验生物学教授得分是否显著高于英语教授: H₀: μ₁ ≤ μ₂ vs H₁: μ₁ > μ₂ p值 = P(Z > z_stat) = 1 - cdf(Z, z_stat)

  2. 检验生物学教授得分是否显著低于英语教授: H₀: μ₁ ≥ μ₂ vs H₁: μ₁ < μ₂ p值 = P(Z < z_stat) = cdf(Z, z_stat)

实际应用中的注意事项

  1. 方差已知:Z检验要求总体方差已知,这在实际情况中比较少见。如果方差未知,应该使用t检验。

  2. 样本独立性:两个样本必须相互独立,不能是配对或相关样本。

  3. 正态性假设:当样本量较小时,需要验证数据是否来自正态分布;样本量大时(n≥30),根据中心极限定理可放宽此要求。

  4. 效应量:除了p值,还应考虑差异的实际大小(效应量),这有助于判断差异的实际意义。

总结

通过distributions3项目中的双样本Z检验案例,我们学习了如何:

  1. 进行正态性检验
  2. 建立统计假设
  3. 计算Z统计量
  4. 计算并解释p值
  5. 区分双侧和单侧检验

在实际研究中,当满足Z检验的前提条件时,它是一种简单有效的均值比较方法。但需要注意检查假设条件,并根据研究问题选择合适的检验类型(单侧/双侧)。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
144
1.93 K
kernelkernel
deepin linux kernel
C
22
6
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
192
274
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
145
189
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
930
553
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
423
392
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
75
66
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.11 K
0
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
64
511