首页
/ distributions3项目中的双样本Z检验详解

distributions3项目中的双样本Z检验详解

2025-06-19 04:12:25作者:农烁颖Land

前言

在统计学中,Z检验是一种常用的假设检验方法,用于比较样本均值与总体均值或两个样本均值之间的差异。本文将基于distributions3项目中的双样本Z检验案例,详细介绍其原理、实现步骤和实际应用。

案例背景

假设一位学生想研究生物学教授和英语教授谁更了解网络流行文化(memes)。为此,该学生设计了一份meme知识测试问卷,并分别对14位生物学教授和18位英语教授进行了测试。

生物学教授得分如下: 3, 7, 11, 0, 7, 0, 4, 5, 6, 2, 4, 7, 2, 9

英语教授得分如下: 5, 5, 4, 5, 4, 5, 7, 2, 6, 2, 2, 7, 2, 6, 4, 2, 5, 2

已知生物学教授得分的总体方差σ²₁=3,英语教授得分的总体方差σ²₂=2。

正态性检验

在进行Z检验前,我们需要确认样本均值是否服从正态分布。根据中心极限定理,当样本量足够大(通常认为n≥30)时,样本均值近似服从正态分布。但本例中两个样本量都小于30,因此需要进行正态性检验。

Q-Q图检验

我们使用正态分位数-分位数图(Q-Q图)来检验数据是否来自正态分布:

biology <- c(3, 7, 11, 0, 7, 0, 4, 5, 6, 2, 4, 7, 2, 9)
english <- c(8, 5, 4, 10, 4, 5, 7, 2, 6, 1, 2, 7, 0, 6, 4, 12, 5, 2)

qqnorm(biology)
qqline(biology)

qqnorm(english)
qqline(english)

从Q-Q图可以看出,两组数据点都基本落在参考线附近,没有明显的系统性偏离,因此可以认为两组数据都近似服从正态分布。

箱线图可视化

我们还可以使用箱线图直观比较两组数据:

library(ggplot2)

test_results <- data.frame(
  score = c(biology, english),
  department = c(
    rep("biology", length(biology)),
    rep("english", length(english))
)

ggplot(test_results, aes(x = department, y = score, color = department)) +
  geom_boxplot() +
  geom_jitter() +
  scale_color_brewer(type = "qual", palette = 2) +
  theme_minimal() +
  theme(legend.position = "none")

从箱线图可以看出,两组数据的分布中心(中位数)和离散程度都比较接近,初步判断两组均值可能没有显著差异。

假设检验

建立假设

我们设定:

  • 零假设H₀:μ₁ - μ₂ = 0(两组均值无差异)
  • 备择假设H₁:μ₁ - μ₂ ≠ 0(两组均值有差异)

计算Z统计量

双样本Z检验的统计量公式为:

Z = (x̄₁ - x̄₂ - δ₀) / √(σ₁²/n₁ + σ₂²/n₂)

其中δ₀为假设的均值差(本例中为0),σ₁²和σ₂²为已知的总体方差,n₁和n₂为样本量。

在R中计算:

delta_0 <- 0
sigma_sq_1 <- 3
sigma_sq_2 <- 2
n_1 <- length(biology)
n_2 <- length(english)

z_stat <- (mean(biology) - mean(english) - delta_0) / 
  sqrt(sigma_sq_1 / n_1 + sigma_sq_2 / n_2)

计算得到的Z统计量约为-0.376。

p值计算

对于双侧检验,p值为P(|Z| ≥ |z_stat|)。使用distributions3包计算:

library(distributions3)
Z <- Normal(0, 1)  # 标准正态分布

# 方法1
1 - cdf(Z, abs(z_stat)) + cdf(Z, -abs(z_stat))

# 方法2:利用对称性
2 * cdf(Z, -abs(z_stat))

两种方法得到的p值约为0.707,远大于常用的显著性水平0.05,因此不能拒绝零假设,即没有足够证据表明两组教授的meme知识水平存在显著差异。

单侧检验

有时我们可能需要进行单侧检验:

  1. 检验生物学教授得分是否显著高于英语教授: H₀: μ₁ ≤ μ₂ vs H₁: μ₁ > μ₂ p值 = P(Z > z_stat) = 1 - cdf(Z, z_stat)

  2. 检验生物学教授得分是否显著低于英语教授: H₀: μ₁ ≥ μ₂ vs H₁: μ₁ < μ₂ p值 = P(Z < z_stat) = cdf(Z, z_stat)

实际应用中的注意事项

  1. 方差已知:Z检验要求总体方差已知,这在实际情况中比较少见。如果方差未知,应该使用t检验。

  2. 样本独立性:两个样本必须相互独立,不能是配对或相关样本。

  3. 正态性假设:当样本量较小时,需要验证数据是否来自正态分布;样本量大时(n≥30),根据中心极限定理可放宽此要求。

  4. 效应量:除了p值,还应考虑差异的实际大小(效应量),这有助于判断差异的实际意义。

总结

通过distributions3项目中的双样本Z检验案例,我们学习了如何:

  1. 进行正态性检验
  2. 建立统计假设
  3. 计算Z统计量
  4. 计算并解释p值
  5. 区分双侧和单侧检验

在实际研究中,当满足Z检验的前提条件时,它是一种简单有效的均值比较方法。但需要注意检查假设条件,并根据研究问题选择合适的检验类型(单侧/双侧)。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
861
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K