10分钟零门槛上手Statsmodels：从安装到线性回归模型构建完全指南

2026-02-05 05:08:19作者：姚月梅Lane

你是否还在为Python统计建模工具的复杂配置而烦恼？是否想快速掌握从数据准备到模型构建的完整流程？本文将带你在10分钟内完成Statsmodels的安装、环境配置，并构建第一个线性回归模型，即使是零基础也能轻松上手。读完本文后，你将能够独立完成数据加载、模型训练、结果分析和可视化诊断的全流程操作。

关于Statsmodels

Statsmodels是一个Python统计建模库，提供了丰富的统计模型和计量经济学工具，包括线性回归、时间序列分析、生存分析等功能。它与Pandas和NumPy紧密集成，为数据分析人员和研究人员提供了强大的建模能力。

Statsmodels的主要功能包括：

线性回归模型（OLS、GLS、WLS等）
广义线性模型（GLM）
时间序列分析（ARIMA、VAR等）
生存分析
非参数统计方法
统计测试和诊断

官方文档：docs/source/index.rst 主要功能介绍：README.rst

安装Statsmodels

系统要求

Statsmodels支持Python 3.9及以上版本，主要依赖以下库：

NumPy >= 1.22.3
SciPy >= 1.8
Pandas >= 1.4
Patsy >= 0.5.6

安装方法

使用conda安装（推荐）

conda install -c conda-forge statsmodels

使用pip安装

python -m pip install statsmodels

如果需要安装可选依赖（如绘图、测试等功能）：

python -m pip install statsmodels[extras]

安装指南：docs/source/install.rst

快速入门：构建第一个线性回归模型

步骤1：导入必要的库

import statsmodels.api as sm
import pandas as pd
from patsy import dmatrices

步骤2：加载数据

Statsmodels提供了获取示例数据集的功能。我们使用Guerry数据集，这是一个包含19世纪法国各地区社会经济数据的经典数据集。

# 获取Guerry数据集
df = sm.datasets.get_rdataset("Guerry", "HistData").data

# 选择感兴趣的变量
vars = ['Department', 'Lottery', 'Literacy', 'Wealth', 'Region']
df = df[vars]

# 去除缺失值
df = df.dropna()

数据处理示例：docs/source/gettingstarted.rst

步骤3：准备模型数据

使用Patsy的dmatrices函数创建因变量和自变量矩阵，这将自动处理分类变量并添加常数项。

# 创建因变量和自变量矩阵
y, X = dmatrices('Lottery ~ Literacy + Wealth + Region', data=df, return_type='dataframe')

X矩阵的前几行如下所示：

	Intercept	Region[T.N]	Region[T.S]	Literacy	Wealth
0	1	0	1	37	73
1	1	1	0	51	22
2	1	0	1	13	61

步骤4：拟合线性回归模型

使用OLS（普通最小二乘法）模型拟合数据：

# 创建模型
model = sm.OLS(y, X)

# 拟合模型
results = model.fit()

# 打印模型摘要
print(results.summary())

模型拟合代码：examples/python/ols.py

步骤5：分析模型结果

模型摘要提供了丰富的统计信息，包括系数估计、标准误差、t值、p值和R平方等。

主要结果指标：

R-squared：决定系数，值越接近1表示模型拟合越好
coef：各个自变量的系数估计值
P>|t|：p值，小于0.05表示该变量在统计上显著

关键参数提取：

# 获取系数
print("参数估计: ", results.params)

# 获取R平方
print("R平方值: ", results.rsquared)

模型诊断与可视化

残差分析

Statsmodels提供了多种诊断测试，例如彩虹检验（Rainbow test）用于检验模型的线性假设：

# 彩虹检验
print(sm.stats.linear_rainbow(results))

回归诊断图

绘制部分回归图以可视化自变量与因变量之间的关系：

# 绘制部分回归图
sm.graphics.plot_partregress('Lottery', 'Wealth', ['Region', 'Literacy'], data=df, obs_labels=False)

诊断测试和可视化：docs/source/diagnostic.rst

进阶应用示例

非线性关系建模

即使数据存在非线性关系，只要模型参数是线性的，仍可以使用OLS模型：

# 创建非线性关系数据
x = np.linspace(0, 20, 50)
X = np.column_stack((x, np.sin(x), (x - 5)**2, np.ones(50)))
beta = [0.5, 0.5, -0.02, 5.0]
y_true = np.dot(X, beta)
y = y_true + 0.5 * np.random.normal(size=50)

# 拟合模型
model = sm.OLS(y, X)
results = model.fit()

非线性模型示例：examples/python/ols.py

虚拟变量模型

当自变量包含分类变量时，可以使用虚拟变量模型：

# 创建包含分类变量的数据
groups = np.zeros(50, int)
groups[20:40] = 1
groups[40:] = 2
dummy = pd.get_dummies(groups).values
x = np.linspace(0, 20, 50)
X = np.column_stack((x, dummy[:, 1:]))
X = sm.add_constant(X, prepend=False)

# 拟合模型
model = sm.OLS(y, X)
results = model.fit()

虚拟变量示例：examples/python/ols.py

总结与下一步

通过本文，你已经掌握了Statsmodels的基本使用流程，包括安装、数据准备、模型拟合和结果分析。Statsmodels还提供了更多高级功能，如时间序列分析、广义线性模型、生存分析等。

接下来，你可以：

尝试使用自己的数据构建模型
探索其他回归模型（如GLM、RLM）
学习时间序列分析功能

进阶学习资源：

官方教程：docs/source/user-guide.rst
示例代码库：examples/
统计模型参考：docs/source/stats.rst

希望本文能帮助你快速入门Statsmodels，如有任何问题，欢迎在评论区留言讨论。如果你觉得这篇文章有用，请点赞、收藏并关注我们，获取更多数据分析和统计建模教程。

下期预告：时间序列预测实战：使用Statsmodels构建ARIMA模型

statsmodels

Statsmodels: statistical modeling and econometrics in Python

项目地址：https://gitcode.com/gh_mirrors/st/statsmodels

登录后查看全文

10分钟零门槛上手Statsmodels：从安装到线性回归模型构建完全指南

关于Statsmodels

安装Statsmodels

系统要求

安装方法

使用conda安装（推荐）

使用pip安装

快速入门：构建第一个线性回归模型

步骤1：导入必要的库

步骤2：加载数据

步骤3：准备模型数据

步骤4：拟合线性回归模型

步骤5：分析模型结果

模型诊断与可视化

残差分析

回归诊断图

进阶应用示例

非线性关系建模

虚拟变量模型

总结与下一步

热门内容推荐

最新内容推荐

项目优选

10分钟零门槛上手Statsmodels：从安装到线性回归模型构建完全指南

关于Statsmodels

安装Statsmodels

系统要求

安装方法

使用conda安装（推荐）

使用pip安装

快速入门：构建第一个线性回归模型

步骤1：导入必要的库

步骤2：加载数据

步骤3：准备模型数据

步骤4：拟合线性回归模型

步骤5：分析模型结果

模型诊断与可视化

残差分析

回归诊断图

进阶应用示例

非线性关系建模

虚拟变量模型

总结与下一步

相关内容推荐

热门内容推荐

最新内容推荐

项目优选