多维数据分析:使用Pandas进行原始值归一化处理
2025-06-04 14:31:45作者:裴麒琰
前言
在数据分析领域,处理多维数据是一项常见但具有挑战性的任务。本文将基于一个实际案例,展示如何使用Pandas对多维数据进行有效分析和可视化,特别是如何将原始计数数据转换为更有意义的百分比形式。
准备工作
首先,我们需要设置分析环境并导入必要的库:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
from sqlalchemy import create_engine
# 设置图形样式和大小
plt.style.use(['seaborn-talk', 'seaborn-ticks', 'seaborn-whitegrid'])
plt.rcParams['figure.figsize'] = (15, 7)
数据获取
我们从数据库中获取Facebook用户的性别和社会观点数据:
# 构建数据库连接
conn_string = 'mysql+pymysql://{user}:{password}@{host}:{port}/{db}'.format(
user='student',
password='dwdstudent2015',
host='db.ipeirotis.org',
port=3306,
db='facebook')
engine = create_engine(conn_string)
# 查询SQL获取数据
query = '''
SELECT Sex, SocialViews, COUNT(*) AS cnt
FROM Profiles
WHERE Sex IS NOT NULL AND SocialViews IS NOT NULL
GROUP BY Sex, SocialViews
ORDER BY SocialViews, Sex
'''
df = pd.read_sql(query, con=engine)
数据透视与初步可视化
原始数据是长格式的,我们需要将其转换为宽格式以便分析:
# 创建透视表
dfp = pd.pivot_table(
data=df,
index='SocialViews',
columns='Sex',
values='cnt',
aggfunc='sum'
)
此时直接绘制图表可能不太直观:
dfp.plot(kind='bar')
数据规范化处理
按列归一化(性别维度)
由于男女用户数量不同,我们需要按性别进行归一化:
dfp_norm = dfp / dfp.sum()
dfp_norm.plot(kind='bar')
这种归一化方式展示了在每个社会观点类别中,男女用户各自所占的比例。
按行归一化(社会观点维度)
我们也可以反过来,查看在每个性别中,不同社会观点的分布:
dfp_norm2 = dfp.T / dfp.T.sum()
dfp_norm2.T.plot(kind='bar', rot=45)
进阶可视化技巧
使用堆叠条形图可以更直观地比较不同性别在各社会观点中的分布:
dfp_norm2.T.plot(kind='bar', stacked=True, rot=45)
实际应用案例
让我们通过一个实际案例巩固所学知识:分析不同感情状态用户寻找的关系类型。
数据查询与处理
query = '''
SELECT R.Status, L.LookingFor, COUNT(*) AS cnt
FROM Relationship R INNER JOIN LookingFor L ON R.ProfileID = L.ProfileID
GROUP BY R.Status, L.LookingFor
HAVING cnt>10
'''
df_relationship = pd.read_sql(query, con=engine)
pivot = df_relationship.pivot_table(
index='Status',
columns='LookingFor',
values='cnt'
)
多角度分析
- 按感情状态归一化:
normed1 = pivot / pivot.sum()
normed1.T.plot.barh()
- 按寻找关系类型归一化:
normed2 = (pivot.T / pivot.T.sum())
normed2.T.plot.barh()
总结
通过本文的学习,我们掌握了:
- 使用Pandas对多维数据进行透视分析
- 按不同维度对数据进行归一化处理
- 选择合适的可视化方式展示分析结果
这些技能在处理任何多维数据集时都非常有用,能够帮助我们从不同角度理解数据的内在结构和关系。记住,选择哪种归一化方式取决于你的分析目的和想要回答的问题。
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0186
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0112
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
omega-aiOmega-AI:基于java打造的深度学习框架,帮助你快速搭建神经网络,实现模型推理与训练,引擎支持自动求导,多线程与GPU运算,GPU支持CUDA,CUDNN。Java03
llm-universe本项目是一个面向小白开发者的大模型应用开发教程,在线阅读地址:https://datawhalechina.github.io/llm-universe/Jupyter Notebook08
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
759
4.94 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
853
1.91 K
deepin linux kernel
C
32
16
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
673
1.32 K
Ascend Extension for PyTorch
Python
716
866
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.77 K
186
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
454
436
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.07 K
1.09 K
CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。
Python
990
598
暂无简介
Dart
1 K
259