多维数据分析：使用Pandas进行原始值归一化处理

2025-06-04 14:31:45作者：裴麒琰

前言

在数据分析领域，处理多维数据是一项常见但具有挑战性的任务。本文将基于一个实际案例，展示如何使用Pandas对多维数据进行有效分析和可视化，特别是如何将原始计数数据转换为更有意义的百分比形式。

准备工作

首先，我们需要设置分析环境并导入必要的库：

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
from sqlalchemy import create_engine

# 设置图形样式和大小
plt.style.use(['seaborn-talk', 'seaborn-ticks', 'seaborn-whitegrid'])
plt.rcParams['figure.figsize'] = (15, 7)

数据获取

我们从数据库中获取Facebook用户的性别和社会观点数据：

# 构建数据库连接
conn_string = 'mysql+pymysql://{user}:{password}@{host}:{port}/{db}'.format(
    user='student',
    password='dwdstudent2015',
    host='db.ipeirotis.org',
    port=3306,
    db='facebook')
engine = create_engine(conn_string)

# 查询SQL获取数据
query = '''
SELECT Sex, SocialViews, COUNT(*) AS cnt 
FROM Profiles 
WHERE Sex IS NOT NULL AND SocialViews IS NOT NULL 
GROUP BY Sex, SocialViews
ORDER BY SocialViews, Sex
'''

df = pd.read_sql(query, con=engine)

数据透视与初步可视化

原始数据是长格式的，我们需要将其转换为宽格式以便分析：

# 创建透视表
dfp = pd.pivot_table(
    data=df,
    index='SocialViews',
    columns='Sex',
    values='cnt',
    aggfunc='sum'
)

此时直接绘制图表可能不太直观：

dfp.plot(kind='bar')

数据规范化处理

按列归一化（性别维度）

由于男女用户数量不同，我们需要按性别进行归一化：

dfp_norm = dfp / dfp.sum()
dfp_norm.plot(kind='bar')

这种归一化方式展示了在每个社会观点类别中，男女用户各自所占的比例。

按行归一化（社会观点维度）

我们也可以反过来，查看在每个性别中，不同社会观点的分布：

dfp_norm2 = dfp.T / dfp.T.sum()
dfp_norm2.T.plot(kind='bar', rot=45)

进阶可视化技巧

使用堆叠条形图可以更直观地比较不同性别在各社会观点中的分布：

dfp_norm2.T.plot(kind='bar', stacked=True, rot=45)

实际应用案例

让我们通过一个实际案例巩固所学知识：分析不同感情状态用户寻找的关系类型。

数据查询与处理

query = '''
SELECT R.Status, L.LookingFor, COUNT(*) AS cnt
FROM Relationship R INNER JOIN LookingFor L ON R.ProfileID = L.ProfileID
GROUP BY R.Status, L.LookingFor
HAVING cnt>10
'''
df_relationship = pd.read_sql(query, con=engine)
pivot = df_relationship.pivot_table(
    index='Status',
    columns='LookingFor',
    values='cnt'
)

多角度分析

按感情状态归一化：

normed1 = pivot / pivot.sum()
normed1.T.plot.barh()

按寻找关系类型归一化：

normed2 = (pivot.T / pivot.T.sum())
normed2.T.plot.barh()

总结

通过本文的学习，我们掌握了：

使用Pandas对多维数据进行透视分析
按不同维度对数据进行归一化处理
选择合适的可视化方式展示分析结果

这些技能在处理任何多维数据集时都非常有用，能够帮助我们从不同角度理解数据的内在结构和关系。记住，选择哪种归一化方式取决于你的分析目的和想要回答的问题。

登录后查看全文

多维数据分析：使用Pandas进行原始值归一化处理

前言

准备工作

数据获取

数据透视与初步可视化

数据规范化处理

按列归一化（性别维度）

按行归一化（社会观点维度）

进阶可视化技巧

实际应用案例

数据查询与处理

多角度分析

总结

热门内容推荐

最新内容推荐

项目优选

多维数据分析：使用Pandas进行原始值归一化处理

前言

准备工作

数据获取

数据透视与初步可视化

数据规范化处理

按列归一化（性别维度）

按行归一化（社会观点维度）

进阶可视化技巧

实际应用案例

数据查询与处理

多角度分析

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选