首页
/ Pandas 数据分析:计算工具详解

Pandas 数据分析:计算工具详解

2025-05-31 21:34:04作者:邬祺芯Juliet

概述

Pandas 作为 Python 数据分析的核心库,提供了丰富的计算工具来处理数据。本文将深入介绍 Pandas 中的各种计算功能,包括统计函数、窗口计算等高级特性,帮助数据分析师更好地利用 Pandas 进行数据处理。

统计函数

百分比变化计算

在时间序列分析中,计算百分比变化是一项常见需求。Pandas 提供了 pct_change() 方法:

import pandas as pd
import numpy as np

# 创建Series示例
ser = pd.Series(np.random.randn(8))
print(ser.pct_change())

# DataFrame示例
df = pd.DataFrame(np.random.randn(10, 4))
print(df.pct_change(periods=3))  # 计算3个周期后的变化

pct_change() 方法支持 periods 参数指定计算变化的周期数,以及 fill_method 参数处理缺失值。

协方差计算

协方差衡量两个变量的联合变化程度:

s1 = pd.Series(np.random.randn(1000))
s2 = pd.Series(np.random.randn(1000))
print(s1.cov(s2))  # 两个Series的协方差

# DataFrame协方差矩阵
frame = pd.DataFrame(np.random.randn(1000, 5),
                    columns=['a', 'b', 'c', 'd', 'e'])
print(frame.cov())

注意事项

  • 默认排除缺失值
  • 结果矩阵可能不是正定的
  • 支持 min_periods 参数指定最小观测数

相关性计算

Pandas 支持多种相关性计算方法:

frame = pd.DataFrame(np.random.randn(1000, 5),
                    columns=['a', 'b', 'c', 'd', 'e'])

# 三种相关计算方法
print(frame['a'].corr(frame['b']))  # 默认Pearson
print(frame['a'].corr(frame['b'], method='spearman'))  # Spearman
print(frame.corr())  # 整个DataFrame的相关矩阵

支持的相关方法:

  • pearson(默认):标准相关系数
  • kendall:Kendall Tau 相关系数
  • spearman:Spearman 秩相关系数

高级特性:Pandas 0.24.0+ 支持自定义相关函数:

def histogram_intersection(a, b):
    return np.minimum(np.true_divide(a, a.sum()),
                     np.true_divide(b, b.sum())).sum()

frame.corr(method=histogram_intersection)

数据排名

rank() 方法提供数据排名功能:

s = pd.Series(np.random.randn(5), index=list('abcde'))
s['d'] = s['b']  # 创建平局
print(s.rank())  # 默认平均排名

df = pd.DataFrame(np.random.randn(10, 6))
df[4] = df[2][:5]  # 创建平局
print(df.rank(axis=1))  # 按行排名

排名方法选项:

  • average:平局取平均(默认)
  • min:平局取最小排名
  • max:平局取最大排名
  • first:按出现顺序排名

窗口函数

窗口函数是时间序列分析的重要工具,Pandas 提供了强大的窗口计算功能。

基本窗口操作

s = pd.Series(np.random.randn(1000),
             index=pd.date_range('1/1/2000', periods=1000))
s = s.cumsum()

# 创建60天的滚动窗口
r = s.rolling(window=60)
print(r.mean())  # 计算滚动均值

窗口函数支持参数:

  • window:窗口大小
  • min_periods:最小非空观测数
  • center:是否居中标签

窗口统计方法

Pandas 提供丰富的窗口统计方法:

方法 描述
count() 非空观测数
sum() 求和
mean() 均值
median() 中位数
min() 最小值
max() 最大值
std() 标准差
var() 方差
skew() 偏度
kurt() 峰度
quantile() 分位数
apply() 自定义函数
cov() 协方差
corr() 相关系数

高级窗口应用

自定义窗口函数

def mad(x):  # 平均绝对偏差
    return np.fabs(x - x.mean()).mean()

s.rolling(window=60).apply(mad, raw=True)

加权窗口

ser = pd.Series(np.random.randn(10),
               index=pd.date_range('1/1/2000', periods=10))

# 三角加权窗口
print(ser.rolling(window=5, win_type='triang').mean())

# 高斯加权窗口
print(ser.rolling(window=5, win_type='gaussian').mean(std=0.1))

支持多种窗口类型:boxcar, triang, blackman, hamming, bartlett 等。

时间感知滚动窗口

Pandas 支持基于时间的滚动窗口:

dft = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]},
                  index=pd.date_range('20130101 09:00:00',
                                     periods=5,
                                     freq='s'))
print(dft.rolling('2s').sum())  # 2秒滚动窗口

端点控制

df = pd.DataFrame({'x': 1},
                 index=[pd.Timestamp('20130101 09:00:01'),
                        pd.Timestamp('20130101 09:00:02'),
                        pd.Timestamp('20130101 09:00:03'),
                        pd.Timestamp('20130101 09:00:04'),
                        pd.Timestamp('20130101 09:00:06')])

# 不同端点控制方式
df["right"] = df.rolling('2s', closed='right').x.sum()  # 默认
df["both"] = df.rolling('2s', closed='both').x.sum()
df["left"] = df.rolling('2s', closed='left').x.sum()
df["neither"] = df.rolling('2s', closed='neither').x.sum()

居中窗口

ser.rolling(window=5).mean()  # 默认右对齐
ser.rolling(window=5, center=True).mean()  # 居中

总结

Pandas 的计算工具为数据分析提供了强大支持,从基本的统计函数到高级的窗口计算,覆盖了数据分析的常见需求。掌握这些工具可以显著提高数据处理效率和分析深度。

关键要点:

  1. 百分比变化、协方差和相关函数是基础统计分析的核心
  2. 窗口函数为时间序列分析提供灵活的计算方式
  3. 时间感知窗口和端点控制增强了时间序列处理的精确性
  4. 自定义函数扩展了分析的可能性

通过合理组合这些工具,可以构建复杂的数据分析流程,满足各种业务场景的需求。

登录后查看全文
热门项目推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
179
263
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
869
514
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
130
183
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
295
331
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
333
1.09 K
harmony-utilsharmony-utils
harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库,借助众多实用工具类,致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志,异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作,能够满足各种不同的开发需求。
ArkTS
18
0
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.08 K
0
kernelkernel
deepin linux kernel
C
22
5
WxJavaWxJava
微信开发 Java SDK,支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发,记得关注公众号及时接受版本更新信息,以及加入微信群进行深入讨论
Java
829
22
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
601
58