Pandas 数据分析：计算工具详解

2025-05-31 04:44:31作者：邬祺芯Juliet

概述

Pandas 作为 Python 数据分析的核心库，提供了丰富的计算工具来处理数据。本文将深入介绍 Pandas 中的各种计算功能，包括统计函数、窗口计算等高级特性，帮助数据分析师更好地利用 Pandas 进行数据处理。

统计函数

百分比变化计算

在时间序列分析中，计算百分比变化是一项常见需求。Pandas 提供了 pct_change() 方法：

import pandas as pd
import numpy as np

# 创建Series示例
ser = pd.Series(np.random.randn(8))
print(ser.pct_change())

# DataFrame示例
df = pd.DataFrame(np.random.randn(10, 4))
print(df.pct_change(periods=3))  # 计算3个周期后的变化

pct_change() 方法支持 periods 参数指定计算变化的周期数，以及 fill_method 参数处理缺失值。

协方差计算

协方差衡量两个变量的联合变化程度：

s1 = pd.Series(np.random.randn(1000))
s2 = pd.Series(np.random.randn(1000))
print(s1.cov(s2))  # 两个Series的协方差

# DataFrame协方差矩阵
frame = pd.DataFrame(np.random.randn(1000, 5),
                    columns=['a', 'b', 'c', 'd', 'e'])
print(frame.cov())

注意事项：

默认排除缺失值
结果矩阵可能不是正定的
支持 min_periods 参数指定最小观测数

数据排名

rank() 方法提供数据排名功能：

s = pd.Series(np.random.randn(5), index=list('abcde'))
s['d'] = s['b']  # 创建平局
print(s.rank())  # 默认平均排名

df = pd.DataFrame(np.random.randn(10, 6))
df[4] = df[2][:5]  # 创建平局
print(df.rank(axis=1))  # 按行排名

排名方法选项：

average：平局取平均（默认）
min：平局取最小排名
max：平局取最大排名
first：按出现顺序排名

窗口函数

窗口函数是时间序列分析的重要工具，Pandas 提供了强大的窗口计算功能。

基本窗口操作

s = pd.Series(np.random.randn(1000),
             index=pd.date_range('1/1/2000', periods=1000))
s = s.cumsum()

# 创建60天的滚动窗口
r = s.rolling(window=60)
print(r.mean())  # 计算滚动均值

窗口函数支持参数：

window：窗口大小
min_periods：最小非空观测数
center：是否居中标签

窗口统计方法

Pandas 提供丰富的窗口统计方法：

方法	描述
count()	非空观测数
sum()	求和
mean()	均值
median()	中位数
min()	最小值
max()	最大值
std()	标准差
var()	方差
skew()	偏度
kurt()	峰度
quantile()	分位数
apply()	自定义函数
cov()	协方差
corr()	相关系数

高级窗口应用

自定义窗口函数：

def mad(x):  # 平均绝对偏差
    return np.fabs(x - x.mean()).mean()

s.rolling(window=60).apply(mad, raw=True)

加权窗口：

ser = pd.Series(np.random.randn(10),
               index=pd.date_range('1/1/2000', periods=10))

# 三角加权窗口
print(ser.rolling(window=5, win_type='triang').mean())

# 高斯加权窗口
print(ser.rolling(window=5, win_type='gaussian').mean(std=0.1))

支持多种窗口类型：boxcar, triang, blackman, hamming, bartlett 等。

时间感知滚动窗口

Pandas 支持基于时间的滚动窗口：

dft = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]},
                  index=pd.date_range('20130101 09:00:00',
                                     periods=5,
                                     freq='s'))
print(dft.rolling('2s').sum())  # 2秒滚动窗口

端点控制：

df = pd.DataFrame({'x': 1},
                 index=[pd.Timestamp('20130101 09:00:01'),
                        pd.Timestamp('20130101 09:00:02'),
                        pd.Timestamp('20130101 09:00:03'),
                        pd.Timestamp('20130101 09:00:04'),
                        pd.Timestamp('20130101 09:00:06')])

# 不同端点控制方式
df["right"] = df.rolling('2s', closed='right').x.sum()  # 默认
df["both"] = df.rolling('2s', closed='both').x.sum()
df["left"] = df.rolling('2s', closed='left').x.sum()
df["neither"] = df.rolling('2s', closed='neither').x.sum()

居中窗口

ser.rolling(window=5).mean()  # 默认右对齐
ser.rolling(window=5, center=True).mean()  # 居中

总结

Pandas 的计算工具为数据分析提供了强大支持，从基本的统计函数到高级的窗口计算，覆盖了数据分析的常见需求。掌握这些工具可以显著提高数据处理效率和分析深度。

关键要点：

百分比变化、协方差和相关函数是基础统计分析的核心
窗口函数为时间序列分析提供灵活的计算方式
时间感知窗口和端点控制增强了时间序列处理的精确性
自定义函数扩展了分析的可能性

通过合理组合这些工具，可以构建复杂的数据分析流程，满足各种业务场景的需求。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

Pandas 数据分析：计算工具详解

概述

统计函数

百分比变化计算

协方差计算

相关性计算

数据排名

窗口函数

基本窗口操作

窗口统计方法

高级窗口应用

时间感知滚动窗口

居中窗口

总结

热门内容推荐

最新内容推荐

项目优选

Pandas 数据分析：计算工具详解

概述

统计函数

百分比变化计算

协方差计算

相关性计算

数据排名

窗口函数

基本窗口操作

窗口统计方法

高级窗口应用

时间感知滚动窗口

居中窗口

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选