100个Pandas练习题解析与实战指南

2026-02-04 04:41:06作者：昌雅子Ethen

前言

Pandas是Python数据分析的核心库之一，掌握其基本操作是每个数据分析师的必备技能。本文基于100个Pandas练习题项目，精选典型问题并深入解析，帮助读者系统性地掌握Pandas的核心功能。

基础操作篇

环境准备与数据导入

import pandas as pd
import numpy as np

# 检查Pandas版本
print(pd.__version__)

# 显示所有依赖库版本信息
pd.show_versions()

创建DataFrame

data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)

数据概览与基本操作

查看数据摘要信息

df.info()  # 显示数据类型、非空值数量等
df.describe()  # 显示数值列的统计信息

数据选择技巧

# 选择前3行
df.head(3)

# 选择特定列
df[['animal', 'age']]

# 同时选择特定行和列
df.loc[df.index[[3, 4, 8]], ['animal', 'age']]

条件筛选

# 筛选访问次数大于3的记录
df[df['visits'] > 3]

# 筛选年龄缺失的记录
df[df['age'].isnull()]

# 复合条件筛选
df[(df['animal'] == 'cat') & (df['age'] < 3)]

进阶操作篇

数据修改与计算

修改特定值

df.loc['f', 'age'] = 1.5

数据聚合

# 计算访问总次数
df['visits'].sum()

# 按动物类型计算平均年龄
df.groupby('animal')['age'].mean()

数据透视表

# 创建透视表：行是动物类型，列是访问次数，值是平均年龄
df.pivot_table(index='animal', columns='visits', values='age', aggfunc='mean')

数据清洗技巧

处理重复值

# 过滤掉与上一行相同的值
df.loc[df['A'].shift() != df['A']]

# 统计唯一行数量
len(df.drop_duplicates(keep=False))

数据类型转换

# 将'yes'/'no'转换为布尔值
df['priority'] = df['priority'].map({'yes': True, 'no': False})

值替换

# 将'snake'替换为'python'
df['animal'] = df['animal'].replace('snake', 'python')

高级应用篇

复杂数据处理

分组聚合高级操作

# 对每个组取最大的3个值并求和
df.groupby('grps')['vals'].nlargest(3).sum(level=0)

分箱统计

# 按A列每10分箱统计B列的和
df.groupby(pd.cut(df['A'], np.arange(0, 101, 10)))['B'].sum()

特殊计数问题

# 计算每个值距离前一个0的距离
s = pd.Series([7, 2, 0, 3, 4, 2, 5, 0, 3, 4])
(s.groupby(s.eq(0).cumsum().mask(s.eq(0))).cumcount() + 1

实战技巧总结

数据探索技巧

使用info()和describe()快速了解数据概况
善用value_counts()查看分类分布

高效数据操作

优先使用向量化操作而非循环
掌握loc和iloc的精确索引方法

数据清洗要点

处理缺失值是数据清洗的第一步
数据类型转换可提高后续分析效率

高级分析技巧

分组聚合是数据分析的核心操作
透视表能快速生成多维分析结果

通过这100个练习题的实战演练，读者可以系统掌握Pandas从基础到高级的各种操作技巧，为实际数据分析工作打下坚实基础。建议读者在理解每个练习的基础上，尝试应用到自己的实际项目中，以达到融会贯通的效果。

100-pandas-puzzles

100 data puzzles for pandas, ranging from short and simple to super tricky (60% complete)

项目地址：https://gitcode.com/gh_mirrors/10/100-pandas-puzzles

登录后查看全文

100个Pandas练习题解析与实战指南

前言

基础操作篇

环境准备与数据导入

创建DataFrame

数据概览与基本操作

进阶操作篇

数据修改与计算

数据清洗技巧

高级应用篇

复杂数据处理

实战技巧总结

热门内容推荐

最新内容推荐

项目优选

100个Pandas练习题解析与实战指南

前言

基础操作篇

环境准备与数据导入

创建DataFrame

数据概览与基本操作

进阶操作篇

数据修改与计算

数据清洗技巧

高级应用篇

复杂数据处理

实战技巧总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选