概述
Pandas 是基于 Python 构建的开源数据分析库,提供了强大的数据结构和运算功能。在数据处理领域,它几乎是事实上的标准工具。
核心数据结构主要有两个:
- Series:一维数组,类似 Numpy 的一维 array,但带有索引标签,可存储字符串、布尔值或数字等多种类型。
- DataFrame:二维表格型结构,类似 SQL 表或 Excel 工作表。每列可以是不同数据类型,拥有列名和行索引,是 Pandas 的核心。
环境准备
使用前需导入库,通常简写为 pd:
import pandas as pd
Series 基础操作
创建与查看
创建一个从 0 开始索引的 Series:
s = pd.Series([1, 2, 3])
print(s)
使用 index 属性查看索引标签,values 属性获取底层数值数组:
print(s.index) # 输出类似 range(0, 3)
print(s.values) # 直接查看下标的值
注意:索引(Index)是数据的标签,下标(Position)是计算机内部的记忆位置,两者概念不同。
自定义标签与访问
可以为 Series 指定自定义标签。此时默认整数下标不再适用,需要使用 .iloc(基于位置)或 .loc(基于标签)来访问数据。
s = pd.Series([1, 5, 2], index=['a', 'b', 'c'])
# s.loc['b'] 返回 5
# s.iloc[1] 也返回 5
- iloc:基于原下标(整数位置),计算机视角的记忆。
- loc:基于修改后的标签(自定义名称),用户视角的标识。
键值对与字典
Series 本质上是一维数据,其'键'类似于字典的 Key。理解键值对有助于后续操作。
s = pd.Series({'小张': 90, '小李': 85})
# 修改数据
s.loc['小张'] =
result = s[s > ]


