distributions3项目中的双样本Z检验详解

2025-06-19 03:49:35作者：农烁颖Land

前言

在统计学中，Z检验是一种常用的假设检验方法，用于比较样本均值与总体均值或两个样本均值之间的差异。本文将基于distributions3项目中的双样本Z检验案例，详细介绍其原理、实现步骤和实际应用。

案例背景

假设一位学生想研究生物学教授和英语教授谁更了解网络流行文化（memes）。为此，该学生设计了一份meme知识测试问卷，并分别对14位生物学教授和18位英语教授进行了测试。

生物学教授得分如下： 3, 7, 11, 0, 7, 0, 4, 5, 6, 2, 4, 7, 2, 9

英语教授得分如下： 5, 5, 4, 5, 4, 5, 7, 2, 6, 2, 2, 7, 2, 6, 4, 2, 5, 2

已知生物学教授得分的总体方差σ²₁=3，英语教授得分的总体方差σ²₂=2。

正态性检验

在进行Z检验前，我们需要确认样本均值是否服从正态分布。根据中心极限定理，当样本量足够大（通常认为n≥30）时，样本均值近似服从正态分布。但本例中两个样本量都小于30，因此需要进行正态性检验。

Q-Q图检验

我们使用正态分位数-分位数图(Q-Q图)来检验数据是否来自正态分布：

biology <- c(3, 7, 11, 0, 7, 0, 4, 5, 6, 2, 4, 7, 2, 9)
english <- c(8, 5, 4, 10, 4, 5, 7, 2, 6, 1, 2, 7, 0, 6, 4, 12, 5, 2)

qqnorm(biology)
qqline(biology)

qqnorm(english)
qqline(english)

从Q-Q图可以看出，两组数据点都基本落在参考线附近，没有明显的系统性偏离，因此可以认为两组数据都近似服从正态分布。

箱线图可视化

我们还可以使用箱线图直观比较两组数据：

library(ggplot2)

test_results <- data.frame(
  score = c(biology, english),
  department = c(
    rep("biology", length(biology)),
    rep("english", length(english))
)

ggplot(test_results, aes(x = department, y = score, color = department)) +
  geom_boxplot() +
  geom_jitter() +
  scale_color_brewer(type = "qual", palette = 2) +
  theme_minimal() +
  theme(legend.position = "none")

从箱线图可以看出，两组数据的分布中心（中位数）和离散程度都比较接近，初步判断两组均值可能没有显著差异。

假设检验

建立假设

我们设定：

零假设H₀：μ₁ - μ₂ = 0（两组均值无差异）
备择假设H₁：μ₁ - μ₂ ≠ 0（两组均值有差异）

计算Z统计量

双样本Z检验的统计量公式为：

Z = (x̄₁ - x̄₂ - δ₀) / √(σ₁²/n₁ + σ₂²/n₂)

其中δ₀为假设的均值差（本例中为0），σ₁²和σ₂²为已知的总体方差，n₁和n₂为样本量。

在R中计算：

delta_0 <- 0
sigma_sq_1 <- 3
sigma_sq_2 <- 2
n_1 <- length(biology)
n_2 <- length(english)

z_stat <- (mean(biology) - mean(english) - delta_0) / 
  sqrt(sigma_sq_1 / n_1 + sigma_sq_2 / n_2)

计算得到的Z统计量约为-0.376。

p值计算

对于双侧检验，p值为P(|Z| ≥ |z_stat|)。使用distributions3包计算：

library(distributions3)
Z <- Normal(0, 1)  # 标准正态分布

# 方法1
1 - cdf(Z, abs(z_stat)) + cdf(Z, -abs(z_stat))

# 方法2：利用对称性
2 * cdf(Z, -abs(z_stat))

两种方法得到的p值约为0.707，远大于常用的显著性水平0.05，因此不能拒绝零假设，即没有足够证据表明两组教授的meme知识水平存在显著差异。

单侧检验

有时我们可能需要进行单侧检验：

检验生物学教授得分是否显著高于英语教授： H₀: μ₁ ≤ μ₂ vs H₁: μ₁ > μ₂ p值 = P(Z > z_stat) = 1 - cdf(Z, z_stat)
检验生物学教授得分是否显著低于英语教授： H₀: μ₁ ≥ μ₂ vs H₁: μ₁ < μ₂ p值 = P(Z < z_stat) = cdf(Z, z_stat)

实际应用中的注意事项

方差已知：Z检验要求总体方差已知，这在实际情况中比较少见。如果方差未知，应该使用t检验。
样本独立性：两个样本必须相互独立，不能是配对或相关样本。
正态性假设：当样本量较小时，需要验证数据是否来自正态分布；样本量大时（n≥30），根据中心极限定理可放宽此要求。
效应量：除了p值，还应考虑差异的实际大小（效应量），这有助于判断差异的实际意义。

总结

通过distributions3项目中的双样本Z检验案例，我们学习了如何：

进行正态性检验
建立统计假设
计算Z统计量
计算并解释p值
区分双侧和单侧检验

在实际研究中，当满足Z检验的前提条件时，它是一种简单有效的均值比较方法。但需要注意检查假设条件，并根据研究问题选择合适的检验类型（单侧/双侧）。

登录后查看全文

distributions3项目中的双样本Z检验详解

前言

案例背景

正态性检验

Q-Q图检验

箱线图可视化

假设检验

建立假设

计算Z统计量

p值计算

单侧检验

实际应用中的注意事项

总结

热门内容推荐

最新内容推荐

项目优选

distributions3项目中的双样本Z检验详解

前言

案例背景

正态性检验

Q-Q图检验

箱线图可视化

假设检验

建立假设

计算Z统计量

p值计算

单侧检验

实际应用中的注意事项

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选