概述
Pandas 是基于 Python 构建的开源数据分析库,提供了强大的数据结构和运算功能。其核心在于两种数据结构:
- Series:一维数组,类似 Numpy 的一维 array,但带有索引标签,可存储字符串、布尔值或数字等多种类型。
- DataFrame:二维表格型结构,类似 SQL 表或 Excel 工作表。每列可以是不同数据类型,拥有列名和行索引,是 Pandas 处理数据的核心容器。
导入库
通常将 Pandas 简写为 pd 以便调用:
import pandas as pd
Series 基础操作
创建与查看
创建 Series 时,默认索引从 0 开始。可以通过 index 属性查看下标标签,使用 values 获取实际数值。
s = pd.Series([1, 2, 3])
print(s.index) # 输出类似 range(0, 3)
print(s.values) # 直接查看下标对应的值
注意区分标签(Label)和下标(Position)。如果自定义了索引标签,访问时需注意区别。
指定标签与索引
当设置自定义索引后,原默认下标会发生变化。例如,若将第一个元素标签设为 5,则无法通过位置 0 直接访问该值,此时需借助 iloc 和 loc。
- iloc:基于整数位置(原下标),计算机视角的记忆。
- loc:基于自定义标签,用户视角的标识。
s = pd.Series([1, 2, 3], index=[5, 6, 7])
# s.iloc[0] 获取位置 0 的值
# s.loc[5] 获取标签为 5 的值
对象创建与修改
Series 本质上是一维数据,内部结构类似字典的键值对(Key: Value)。
修改数据
利用 loc 可通过标签定位并修改值:
s['小张'] = 95
筛选数据
支持布尔索引进行条件筛选,逻辑运算符在 Pandas 中需用 & 代替 and:
result = s[(s > 80) & (s < )]


