使用pandas进行数据准备 - intro_stat_modeling_2017项目解析

2025-06-07 07:05:25作者：江焘钦

数据准备的重要性

在统计建模项目中，数据准备环节往往占据了大部分时间。根据经验，约80%的时间都花费在数据导入、清洗、验证和转换上。只有高质量的数据准备，才能确保后续建模工作的准确性和可靠性。

pandas简介

pandas是Python中用于数据分析的核心库，它提供了高效、灵活的数据结构，特别适合处理带标签的关系型数据。pandas主要适用于以下场景：

包含异构类型列的表格数据（类似SQL表或Excel电子表格）
时间序列数据（无论是否固定频率）
带有行列标签的矩阵数据

pandas核心特性

缺失值处理：内置智能处理缺失数据的机制
数据对齐：自动或显式地对齐不同数据集
分组操作：强大的groupby功能实现分割-应用-组合操作
灵活索引：支持标签索引、高级索引和子集选择
数据合并：提供直观的数据集合并与连接方法
数据重塑：支持数据透视和变形操作
IO工具：支持从多种数据源读取数据

Series数据结构

Series是pandas中最基本的一维数据结构，类似于带标签的NumPy数组。

创建Series

import pandas as pd
counts = pd.Series([632, 1638, 569, 115])

默认情况下，Series会使用从0开始的整数索引。我们可以通过values和index属性访问其数据和索引：

counts.values  # 获取值数组
counts.index   # 获取索引对象

自定义索引

我们可以为Series指定有意义的标签作为索引：

bacteria = pd.Series([632, 1638, 569, 115],
    index=['Firmicutes', 'Proteobacteria', 'Actinobacteria', 'Bacteroidetes'])

这样可以通过标签直接访问数据：

bacteria['Actinobacteria']  # 返回569

Series操作

Series支持各种操作，同时保持索引对齐：

# 数学运算
np.log(bacteria)

# 条件筛选
bacteria[bacteria>1000]

# 从字典创建
bacteria_dict = {'Firmicutes':632, 'Proteobacteria':1638}
bact = pd.Series(bacteria_dict)

DataFrame数据结构

DataFrame是pandas中最重要的二维表格型数据结构，可以看作多个Series的集合。

创建DataFrame

bacteria_data = pd.DataFrame({
    'value':[632, 1638, 569, 115, 433, 1130, 754, 555],
    'patient':[1,1,1,1,2,2,2,2],
    'phylum':['Firmicutes','Proteobacteria','Actinobacteria',
              'Bacteroidetes','Firmicutes','Proteobacteria',
              'Actinobacteria','Bacteroidetes']
})

DataFrame操作

列顺序调整：可以通过指定列名顺序来调整显示
```
bacteria_data[['phylum', 'value', 'patient']]
```
数据访问：可以通过列名访问特定列
```
bacteria_data['value']  # 获取value列
```

条件筛选：

bacteria_data[bacteria_data['value'] > 1000]

数据清洗与转换

在实际项目中，我们经常需要进行以下数据准备工作：

处理缺失值：

bacteria2.isnull()  # 检测缺失值
bacteria2.fillna(0)  # 填充缺失值

数据合并：

bacteria + bacteria2  # 按标签对齐运算

数据聚合：

bacteria_data.groupby('patient')['value'].mean()

最佳实践建议

始终检查数据的完整性和一致性
为数据列和索引使用有意义的名称
处理缺失值前先分析其产生原因
保持数据转换步骤的可追溯性
在转换前后验证数据形状和统计特性

通过掌握pandas的这些核心功能，我们可以高效地完成统计建模前的数据准备工作，为后续分析奠定坚实基础。

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。