30分钟搞定数据清洗：Pandas实战泰坦尼克号生存分析

2026-02-05 04:18:43作者：明树来

你是否还在为Excel中重复的筛选、排序和VLOOKUP感到抓狂？面对杂乱的CSV数据，是否不知道如何快速提取有效信息？本文将通过泰坦尼克号数据集，带你掌握Pandas（Python数据分析库）从数据加载到结果可视化的全流程，让你从此告别繁琐的手动操作，轻松处理千行数据。

读完本文你将学会：

5分钟上手Pandas核心数据结构
3步完成缺失值自动化处理
一行代码实现数据分组统计
零基础绘制专业数据可视化图表

一、环境准备与数据加载

1.1 安装Pandas

使用以下命令快速安装Pandas：

pip install pandas

官方安装指南可参考setup.py文件，国内用户建议使用清华镜像源加速安装。

1.2 数据集介绍

本文使用的泰坦尼克号数据集位于项目doc/data/titanic.csv，包含891名乘客的基本信息和生存状态，部分数据如下：

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C

1.3 加载数据

使用Pandas的read_csv函数加载数据，代码如下：

import pandas as pd
df = pd.read_csv('doc/data/titanic.csv')

核心数据结构DataFrame会将CSV数据转换为类似Excel表格的格式，方便进行后续操作。

二、数据初探：快速了解数据集

2.1 基本信息查看

通过以下代码获取数据集概览：

# 查看前5行数据
print(df.head())

# 获取数据集基本信息
print(df.info())

# 统计数值型列的描述性统计量
print(df.describe())

执行结果会显示数据集包含12列，其中Age、Cabin和Embarked存在缺失值，这正是我们需要清洗的重点。

2.2 数据结构解析

Pandas主要有两种数据结构：

Series：一维数组，类似Excel中的一列数据
DataFrame：二维表格，由多个Series组成

通过df['列名']可快速获取指定列数据，例如查看乘客年龄分布：

ages = df['Age']
print(ages.value_counts())

三、数据清洗：3步解决90%的数据问题

3.1 缺失值处理

缺失值是数据清洗中最常见的问题，Pandas提供了简洁的处理方法：

# 检查每列缺失值数量
print(df.isnull().sum())

# 填充年龄缺失值为平均值
df['Age'].fillna(df['Age'].mean(), inplace=True)

# 删除Embarked列中的缺失值
df.dropna(subset=['Embarked'], inplace=True)

对于Cabin列（缺失率77%），我们可以创建"未知"类别进行填充：

df['Cabin'] = df['Cabin'].fillna('Unknown')

3.2 数据类型转换

将Survived和Pclass转换为分类数据类型，减少内存占用并方便后续分析：

df['Survived'] = df['Survived'].astype('category')
df['Pclass'] = df['Pclass'].astype('category')

3.3 新增特征工程

从姓名中提取头衔信息，创建新特征Title：

df['Title'] = df['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
# 将稀有头衔归类为"Other"
rare_titles = ['Lady', 'Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona']
df['Title'] = df['Title'].replace(rare_titles, 'Other')

四、数据分析：揭秘生存规律

4.1 性别与生存关系

使用groupby功能一键统计不同性别的生存率：

gender_survive = df.groupby('Sex')['Survived'].mean()
print(gender_survive)

结果显示女性生存率(74.2%)远高于男性(18.9%)，这与"女士优先"的救援原则一致。

4.2 阶级与生存关系

分析不同舱位乘客的生存情况：

class_survive = df.groupby('Pclass')['Survived'].mean()
print(class_survive)

一等舱乘客生存率(62.9%)显著高于三等舱(26.2%)，反映了当时的社会阶层差异。

4.3 多因素交叉分析

结合性别和舱位进行更深入的分析：

cross_analysis = df.groupby(['Sex', 'Pclass'])['Survived'].mean()
print(cross_analysis.unstack())

数据显示，一等舱女性的生存率高达96.8%，而三等舱男性的生存率仅为11.7%。

五、数据可视化：让结果更直观

5.1 生存率对比柱状图

import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文显示
plt.rcParams["font.family"] = ["SimHei", "WenQuanYi Micro Hei", "Heiti TC"]

# 绘制性别与生存率关系图
sns.barplot(x='Sex', y='Survived', data=df)
plt.title('不同性别的生存率对比')
plt.ylabel('生存率')
plt.xlabel('性别')
plt.show()

5.2 年龄分布箱线图

# 绘制不同舱位的年龄分布
sns.boxplot(x='Pclass', y='Age', data=df)
plt.title('不同舱位乘客的年龄分布')
plt.ylabel('年龄')
plt.xlabel('舱位等级')
plt.show()

六、实战总结与进阶学习

通过本次实战，我们使用Pandas完成了从数据加载、清洗、分析到可视化的全流程。核心技巧包括：

使用read_csv快速加载数据
利用fillna和dropna处理缺失值
通过groupby实现高效数据分组
结合Matplotlib/Seaborn绘制可视化图表

下期预告

下一篇文章将介绍Pandas的时间序列处理功能，带你分析股票数据中的季节性规律。点赞+收藏+关注，不错过实用数据分析技巧！

返回顶部

登录后查看全文

30分钟搞定数据清洗：Pandas实战泰坦尼克号生存分析

一、环境准备与数据加载

1.1 安装Pandas

1.2 数据集介绍

1.3 加载数据

二、数据初探：快速了解数据集

2.1 基本信息查看

2.2 数据结构解析

三、数据清洗：3步解决90%的数据问题

3.1 缺失值处理

3.2 数据类型转换

3.3 新增特征工程

四、数据分析：揭秘生存规律

4.1 性别与生存关系

4.2 阶级与生存关系

4.3 多因素交叉分析

五、数据可视化：让结果更直观

5.1 生存率对比柱状图

5.2 年龄分布箱线图

六、实战总结与进阶学习

推荐学习资源

下期预告

热门内容推荐

最新内容推荐

项目优选

30分钟搞定数据清洗：Pandas实战泰坦尼克号生存分析

一、环境准备与数据加载

1.1 安装Pandas

1.2 数据集介绍

1.3 加载数据

二、数据初探：快速了解数据集

2.1 基本信息查看

2.2 数据结构解析

三、数据清洗：3步解决90%的数据问题

3.1 缺失值处理

3.2 数据类型转换

3.3 新增特征工程

四、数据分析：揭秘生存规律

4.1 性别与生存关系

4.2 阶级与生存关系

4.3 多因素交叉分析

五、数据可视化：让结果更直观

5.1 生存率对比柱状图

5.2 年龄分布箱线图

六、实战总结与进阶学习

推荐学习资源

下期预告

相关内容推荐

热门内容推荐

最新内容推荐

项目优选