distributions3项目中的泊松分布：从基础理论到回归模型应用

2025-06-19 05:07:40作者：魏献源Searcher

泊松分布基础概念

泊松分布是统计学中用于建模计数数据的经典概率分布，特别适用于描述单位时间或空间内稀有事件发生次数的概率分布。其概率质量函数(PMF)为：

Pr(Y=y) = (e^(-λ) * λ^y) / y!

其中λ > 0是分布的唯一参数，具有以下重要特性：

期望值E(Y) = λ
方差Var(Y) = λ
当二项分布的试验次数n很大而成功概率p很小时，泊松分布可作为其极限近似
当λ较大时，泊松分布可近似为正态分布

distributions3中的泊松分布实现

distributions3包提供了简洁的API来创建和操作泊松分布对象：

library(distributions3)
Y <- Poisson(lambda = 1.5)  # 创建泊松分布对象
mean(Y)                     # 计算期望
variance(Y)                 # 计算方差
pdf(Y, 0:5)                 # 计算概率质量
cdf(Y, 0:5)                 # 计算累积分布
random(Y, 5)                # 生成随机数

通过plot()方法可以直观展示不同λ值下泊松分布的概率变化规律：

par(mfrow = c(2, 2))
plot(Poisson(0.5), main = "λ=0.5", xlim = c(0, 15))
plot(Poisson(2), main = "λ=2", xlim = c(0, 15))
plot(Poisson(5), main = "λ=5", xlim = c(0, 15))
plot(Poisson(10), main = "λ=10", xlim = c(0, 15))

实际案例：2018世界杯进球分析

数据概览

使用FIFA2018数据集分析世界杯比赛进球数，每条记录包含：

比赛ID和阶段(小组赛/淘汰赛)
球队信息
进球数(goals)
球队能力值(logability)

数据摘要显示，单场球队进球数分布在0-6之间，平均约1.3球。

简单泊松拟合

首先假设所有球队进球率相同，用样本均值估计λ：

p_const <- Poisson(lambda = mean(FIFA2018$goals))

比较观测频率与理论概率：

observed <- prop.table(table(FIFA2018$goals))
expected <- pdf(p_const, 0:6)
cbind(observed, expected)

结果显示简单泊松模型已能较好拟合数据，但忽略了球队实力差异。

泊松回归模型

引入球队能力差异作为预测变量，建立广义线性模型：

m <- glm(goals ~ difference, data = FIFA2018, family = poisson)

模型解读：

截距项(1.21)：实力相当球队比赛的预期log进球数
斜率(0.005)：能力差异每增加1%，预期进球增加约0.005%

预测应用

对决赛(法国vs克罗地亚)进行预测：

p_final <- tail(Poisson(lambda = fitted(m)), 2)
pdf(p_final, 0:6)

计算各种比分组合概率：

res <- outer(pdf(p_final[1], 0:6), pdf(p_final[2], 0:6))
sum(res[lower.tri(res)]) # 法国胜概率
sum(diag(res))           # 平局概率 
sum(res[upper.tri(res)]) # 法国负概率

模型评估

使用悬挂根图(hanging rootogram)可视化拟合优度：

bp <- barplot(sqrt(observed), offset = sqrt(expected)-sqrt(observed))
lines(bp, sqrt(expected), type="o", col=2)

技术细节：最大似然估计

对于独立同分布样本y₁,...,yₙ，泊松分布的似然函数为：

L(λ) = ∏(e^(-λ)*λ^yᵢ/yᵢ!)

对数似然函数：

ℓ(λ) = -nλ + log(λ)∑yᵢ - ∑log(yᵢ!)

通过求解ℓ'(λ)=0可得MLE估计量：

̂λ = (1/n)∑yᵢ = ȳ

对于包含协变量的泊松回归模型，需使用迭代加权最小二乘法等数值方法求解。

扩展应用

实际应用中可考虑：

使用历史数据先验校准模型参数
加入更多预测变量(如主客场、伤病情况等)
采用更复杂的机器学习方法
考虑双变量泊松分布处理比分相关性

泊松分布在计数数据分析中具有基础性地位，distributions3包提供了便捷的实现工具，特别适合教学演示和快速原型开发。

登录后查看全文