首页
/ distributions3项目中的双样本Z检验详解

distributions3项目中的双样本Z检验详解

2025-06-19 02:58:04作者:农烁颖Land

前言

在统计学中,Z检验是一种常用的假设检验方法,用于比较样本均值与总体均值或两个样本均值之间的差异。本文将基于distributions3项目中的双样本Z检验案例,详细介绍其原理、实现步骤和实际应用。

案例背景

假设一位学生想研究生物学教授和英语教授谁更了解网络流行文化(memes)。为此,该学生设计了一份meme知识测试问卷,并分别对14位生物学教授和18位英语教授进行了测试。

生物学教授得分如下: 3, 7, 11, 0, 7, 0, 4, 5, 6, 2, 4, 7, 2, 9

英语教授得分如下: 5, 5, 4, 5, 4, 5, 7, 2, 6, 2, 2, 7, 2, 6, 4, 2, 5, 2

已知生物学教授得分的总体方差σ²₁=3,英语教授得分的总体方差σ²₂=2。

正态性检验

在进行Z检验前,我们需要确认样本均值是否服从正态分布。根据中心极限定理,当样本量足够大(通常认为n≥30)时,样本均值近似服从正态分布。但本例中两个样本量都小于30,因此需要进行正态性检验。

Q-Q图检验

我们使用正态分位数-分位数图(Q-Q图)来检验数据是否来自正态分布:

biology <- c(3, 7, 11, 0, 7, 0, 4, 5, 6, 2, 4, 7, 2, 9)
english <- c(8, 5, 4, 10, 4, 5, 7, 2, 6, 1, 2, 7, 0, 6, 4, 12, 5, 2)

qqnorm(biology)
qqline(biology)

qqnorm(english)
qqline(english)

从Q-Q图可以看出,两组数据点都基本落在参考线附近,没有明显的系统性偏离,因此可以认为两组数据都近似服从正态分布。

箱线图可视化

我们还可以使用箱线图直观比较两组数据:

library(ggplot2)

test_results <- data.frame(
  score = c(biology, english),
  department = c(
    rep("biology", length(biology)),
    rep("english", length(english))
)

ggplot(test_results, aes(x = department, y = score, color = department)) +
  geom_boxplot() +
  geom_jitter() +
  scale_color_brewer(type = "qual", palette = 2) +
  theme_minimal() +
  theme(legend.position = "none")

从箱线图可以看出,两组数据的分布中心(中位数)和离散程度都比较接近,初步判断两组均值可能没有显著差异。

假设检验

建立假设

我们设定:

  • 零假设H₀:μ₁ - μ₂ = 0(两组均值无差异)
  • 备择假设H₁:μ₁ - μ₂ ≠ 0(两组均值有差异)

计算Z统计量

双样本Z检验的统计量公式为:

Z = (x̄₁ - x̄₂ - δ₀) / √(σ₁²/n₁ + σ₂²/n₂)

其中δ₀为假设的均值差(本例中为0),σ₁²和σ₂²为已知的总体方差,n₁和n₂为样本量。

在R中计算:

delta_0 <- 0
sigma_sq_1 <- 3
sigma_sq_2 <- 2
n_1 <- length(biology)
n_2 <- length(english)

z_stat <- (mean(biology) - mean(english) - delta_0) / 
  sqrt(sigma_sq_1 / n_1 + sigma_sq_2 / n_2)

计算得到的Z统计量约为-0.376。

p值计算

对于双侧检验,p值为P(|Z| ≥ |z_stat|)。使用distributions3包计算:

library(distributions3)
Z <- Normal(0, 1)  # 标准正态分布

# 方法1
1 - cdf(Z, abs(z_stat)) + cdf(Z, -abs(z_stat))

# 方法2:利用对称性
2 * cdf(Z, -abs(z_stat))

两种方法得到的p值约为0.707,远大于常用的显著性水平0.05,因此不能拒绝零假设,即没有足够证据表明两组教授的meme知识水平存在显著差异。

单侧检验

有时我们可能需要进行单侧检验:

  1. 检验生物学教授得分是否显著高于英语教授: H₀: μ₁ ≤ μ₂ vs H₁: μ₁ > μ₂ p值 = P(Z > z_stat) = 1 - cdf(Z, z_stat)

  2. 检验生物学教授得分是否显著低于英语教授: H₀: μ₁ ≥ μ₂ vs H₁: μ₁ < μ₂ p值 = P(Z < z_stat) = cdf(Z, z_stat)

实际应用中的注意事项

  1. 方差已知:Z检验要求总体方差已知,这在实际情况中比较少见。如果方差未知,应该使用t检验。

  2. 样本独立性:两个样本必须相互独立,不能是配对或相关样本。

  3. 正态性假设:当样本量较小时,需要验证数据是否来自正态分布;样本量大时(n≥30),根据中心极限定理可放宽此要求。

  4. 效应量:除了p值,还应考虑差异的实际大小(效应量),这有助于判断差异的实际意义。

总结

通过distributions3项目中的双样本Z检验案例,我们学习了如何:

  1. 进行正态性检验
  2. 建立统计假设
  3. 计算Z统计量
  4. 计算并解释p值
  5. 区分双侧和单侧检验

在实际研究中,当满足Z检验的前提条件时,它是一种简单有效的均值比较方法。但需要注意检查假设条件,并根据研究问题选择合适的检验类型(单侧/双侧)。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
23
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
225
2.27 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
flutter_flutterflutter_flutter
暂无简介
Dart
526
116
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
987
583
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
351
1.42 K
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
61
17
GLM-4.6GLM-4.6
GLM-4.6在GLM-4.5基础上全面升级:200K超长上下文窗口支持复杂任务,代码性能大幅提升,前端页面生成更优。推理能力增强且支持工具调用,智能体表现更出色,写作风格更贴合人类偏好。八项公开基准测试显示其全面超越GLM-4.5,比肩DeepSeek-V3.1-Terminus等国内外领先模型。【此简介由AI生成】
Jinja
47
0
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
17
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
JavaScript
212
287