Pandas数据结构详解：Series与DataFrame核心概念解析

2025-05-31 00:01:58作者：邓越浪Henry

前言

在数据分析领域，pandas库提供了两种核心数据结构：Series和DataFrame。理解这些数据结构的特点和操作方法，是掌握pandas进行高效数据处理的关键。本文将深入解析这两种数据结构的特性和使用方法。

1. 准备工作

在开始前，我们需要导入必要的库：

import numpy as np
import pandas as pd

2. Series数据结构

2.1 Series基本概念

Series是pandas中最基本的一维数据结构，可以看作是一个带有标签的数组。它由两部分组成：

数据值(values)：实际存储的数据
索引(index)：与数据值对应的标签

2.2 创建Series

Series可以通过多种方式创建：

从ndarray创建

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

如果不指定索引，pandas会自动创建从0开始的整数索引。

从字典创建

d = {'b': 1, 'a': 0, 'c': 2}
pd.Series(d)

注意：在Python 3.6+和Pandas 0.23+版本中，Series会保留字典的插入顺序。

从标量值创建

pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

标量值会被复制以匹配索引长度。

2.3 Series操作特性

类似ndarray的操作

Series支持大多数NumPy数组操作：

s[0]          # 获取第一个元素
s[:3]         # 切片操作
s[s > 0.5]    # 布尔索引
np.exp(s)     # 应用NumPy函数

类似字典的操作

可以通过索引标签访问和修改值：

s['a'] = 10   # 修改值
'e' in s      # 检查索引存在性
s.get('f', np.nan)  # 安全获取

自动对齐特性

Series运算时会自动按标签对齐：

s1 = pd.Series([1,2,3], index=['a','b','c'])
s2 = pd.Series([4,5,6], index=['b','c','d'])
s1 + s2  # 结果会包含所有索引，不匹配的为NaN

名称属性

Series可以设置名称：

s = pd.Series(np.random.randn(5), name='my_series')
s.name = 'new_name'  # 修改名称

3. DataFrame数据结构

3.1 DataFrame基本概念

DataFrame是二维的表格型数据结构，可以看作：

由多个Series组成的字典
类似电子表格或SQL表
每列可以是不同的数据类型

3.2 创建DataFrame

从字典创建

d = {'one': [1., 2., 3., 4.],
     'two': [4., 3., 2., 1.]}
df = pd.DataFrame(d, index=['a', 'b', 'c', 'd'])

从结构化数组创建

data = np.zeros((2,), dtype=[('A', 'i4'), ('B', 'f4'), ('C', 'a10')])
pd.DataFrame(data)

从列表字典创建

data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
pd.DataFrame(data2)

3.3 DataFrame列操作

列的选择与修改

df['one']          # 选择列
df['three'] = df['one'] * df['two']  # 添加新列
del df['two']      # 删除列

列插入

df.insert(1, 'bar', df['one'])  # 在指定位置插入列

3.4 链式操作方法

pandas提供了类似dplyr的链式操作：

(iris.query('SepalLength > 5')
     .assign(SepalRatio=lambda x: x.SepalWidth / x.SepalLength)
     .plot(kind='scatter', x='SepalRatio', y='PetalRatio'))

4. 核心特性总结

数据对齐：pandas操作会自动按标签对齐
缺失数据处理：使用NaN表示缺失值
灵活索引：支持多种索引方式
类型多样性：支持多种数据类型共存

5. 最佳实践建议

理解数据对齐机制可以避免许多常见错误
链式操作可以使代码更清晰易读
合理使用assign方法可以避免中间变量
注意Python版本对字典顺序的影响

通过掌握这些核心概念，你将能够更高效地使用pandas进行数据处理和分析。

登录后查看全文

Pandas数据结构详解：Series与DataFrame核心概念解析

前言

1. 准备工作

2. Series数据结构

2.1 Series基本概念

2.2 创建Series

从ndarray创建

从字典创建

从标量值创建

2.3 Series操作特性

类似ndarray的操作

类似字典的操作

自动对齐特性

名称属性

3. DataFrame数据结构

3.1 DataFrame基本概念

3.2 创建DataFrame

从字典创建

从结构化数组创建

从列表字典创建

3.3 DataFrame列操作

列的选择与修改

列插入

3.4 链式操作方法

4. 核心特性总结

5. 最佳实践建议

热门内容推荐

最新内容推荐

项目优选

Pandas数据结构详解：Series与DataFrame核心概念解析

前言

1. 准备工作

2. Series数据结构

2.1 Series基本概念

2.2 创建Series

从ndarray创建

从字典创建

从标量值创建

2.3 Series操作特性

类似ndarray的操作

类似字典的操作

自动对齐特性

名称属性

3. DataFrame数据结构

3.1 DataFrame基本概念

3.2 创建DataFrame

从字典创建

从结构化数组创建

从列表字典创建

3.3 DataFrame列操作

列的选择与修改

列插入

3.4 链式操作方法

4. 核心特性总结

5. 最佳实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选