前言
Pandas 是 Python 生态中用于数据分析的核心开源库,提供了强大的数据结构和运算功能。理解其底层逻辑对于高效处理数据至关重要。
- Series:一维数组结构,类似于 NumPy 的一维 array,但带有索引标签,可存储字符串、布尔值或数字等多种类型。
- DataFrame:二维表格型数据结构,类似 SQL 表或 Excel 工作表。每列可以是不同数据类型,拥有列名和行索引,是 Pandas 最核心的数据结构。
下面我们来拆解一下它的核心用法。
一、导入 Pandas 库
通常使用别名 pd 进行导入:
import pandas as pd
二、使用 Series,创建一维数组
默认情况下,索引从 0 开始:

三、index 查看下标,values 查看下标的值
注意: 这里涉及标签(Label)和下标(Position)的区别,详见后文。
- index:输出类似于 range 对象。
- start 代表起始标签;stop 代表结束标签(不包含该值,到 n-1);step 代表步长。
- values:直接获取下标对应的实际数值,索引是从 0 开始的。

四、使用 index 指定标签
当自定义了索引标签后,默认位置索引会发生变化。例如,如果给第一个元素指定标签为 5,那么访问位置 0 可能会报错,此时需要用到 iloc 和 loc。

五、iloc 和 loc 的使用
这是新手最容易混淆的地方,简单区分如下:
- iloc:基于整数位置(integer location),即计算机记忆中的默认下标。
- loc:基于标签(label),由我们自主定义的索引名称。
可以看到,计算机的下标 1 对应的值是 2,而我们自定义的标签 1 对应的值是 5。











































