概述
Pandas 是基于 Python 构建的开源数据分析库,提供了强大的数据结构和运算功能。其核心包含两个主要数据结构:
- Series:一维数组,类似 Numpy 的一维 array,但带有索引标签,可存储字符串、布尔值、数字等多种类型。
- DataFrame:二维表格型结构,类似 SQL 表或 Excel 工作表。每列可以是不同数据类型,拥有列名和行索引,是 Pandas 处理数据的核心对象。
下面我们就从基础结构开始,逐步深入其核心用法。
导入库
通常将 Pandas 简写为 pd 以便调用:
import pandas as pd
Series 基础操作
创建与查看
创建 Series 时,默认索引从 0 开始。我们可以通过 index 属性查看标签(下标),通过 values 获取实际数据值。

注意区分 index 和 values:前者返回的是标签序列(类似 range),后者才是具体的数据内容。
自定义索引与访问
我们可以指定自定义标签作为索引。此时,若直接使用默认位置访问可能会报错,需理解 iloc 与 loc 的区别:
- iloc:基于整数位置(原下标),计算机内部记忆的位置。
- loc:基于自定义标签,我们自主指定的名称。
例如,当标签被修改后,位置 1 对应的值可能不再是默认的第 2 个元素,而是标签为 1 的元素。实际开发中,建议优先使用 loc 进行语义化访问,避免索引变动导致逻辑错误。


键值对与修改
Series 本质是一维数据,可以理解为键值对结构。通过 loc 可以直接修改特定标签对应的值:

筛选数据时,使用 & 符号连接多个条件(相当于 Python 的 ):









































