前言
Pandas 是基于 Python 构建的开源数据分析库,提供了强大的数据结构和运算功能。理解其核心对象是上手的关键:
- Series:一维数组,类似 Numpy 的一维 array,但带有索引标签,可存储字符串、布尔值或数字。
- DataFrame:二维表格型结构,类似 SQL 表或 Excel,每列数据类型可不同,拥有列名和行索引,是 Pandas 的核心。
接下来我们逐步拆解它的用法。
导入 Pandas 库
通常简写为 pd,这是约定俗成的规范。
import pandas as pd
Series 基础创建
默认情况下,Series 从索引 0 开始存储数据。
s = pd.Series([1, 2, 3])
print(s)
输出结果会显示索引(0, 1, 2)和对应的值。理解索引(Index)和值(Values)的区别很重要。
Index 与 Values 查看
- index:返回索引标签,类似于 range 对象,包含 start、stop 和 step 信息。
- values:直接获取底层的数值数组。
注意区分'标签'和'下标'。默认情况下它们重合,但自定义索引后会有区别。
自定义索引标签
我们可以指定索引标签。如果修改了标签,原来的位置索引(整数)依然存在,但访问方式需要调整。
s = pd.Series([5, 10, 15], index=['a', 'b', 'c'])
# 此时 s[0] 会报错,因为标签是 'a' 而不是 0
loc 与 iloc 的使用
这是新手最容易混淆的地方,务必分清:
- iloc:基于整数位置索引(Position),即计算机内存中的顺序记忆。
- loc:基于标签索引(Label),即我们自定义的名称。
例如,若索引被设为 ['a', 'b'],则 iloc[0] 取第一个元素,而 loc['a'] 也取第一个元素,但语义完全不同。实际开发中,推荐优先使用 loc 以保证代码可读性。
字典式创建对象
Series 本质上是一维数据,可以通过字典创建。这里的键(Key)就是数据的标签。
s = pd.Series({'小张': 90, '小李': 85})


