前言
1、Python 的 Pandas 是一个基于 Python 构建的开源数据分析库,它提供了强大的数据结构和运算功能。
2、
- Series:一维数组,类似于 Numpy 中的一维 array,但具有索引标签,可以保存不同类型的数据,如字符串、布尔值、数字等。
- DataFrame:二维表格型数据结构,与 SQL 表或 Excel 工作表类似,每列可以是不同的数据类型(如数值、字符串或日期),并且具有列名和行索引。DataFrame 是 Pandas 的核心数据结构,提供了丰富的数据操作方法。
接下来我们将逐步介绍它的用法。
一、导入 Pandas 库
简写为 pd。
import pandas as pd
二、使用 Series,创建一维数组
从 0 开始存储。
三、index 查看下标,values 查看下标的值
1、index 的输出类似于 range: start 代表起始标签;stop 代表结束标签(不会到这个值,到 n-1 值);step 代表步长。
2、values: 直接查看下标的值,记得是从 0 开始的值。
四、使用 index 指定标签
可以看到数组中 1 的标签不是默认值 0 了,而是标签 5。如果利用想输出下标 0,这时候会报错,我们要使用到 iloc 和 loc。
五、iloc 和 loc 的使用
解释: 1、iloc 是原下标,也就是默认值,计算机的记忆。 2、loc 是修改过的下标,我们把它叫作标签,标签是由我们自主给的,计算机并不会自己产生。
可以看到计算机的下标 1 的值是 2。 可以看到我们给的标签 1 的值是 5。
六、创建对象
1、这里的我们所理解的键其实就是数据的标签,大部分的人可能会理解为这里是一个字典或者一个数组,其实都不是,是一个一维数据。
2、什么是键?如果不知道,就需要回头学习 python 基础了。 键是字典的一个解释,前键后值,称为键值对,如下:"键":值。
3、修改数据 使用 loc,找标签'小张'让他的值等于 95,可以看到被修改了。
4、筛选数据 这里的 & 就是 python and 的意思。
七、两个数据相加、相减、相乘、相除
1、相加——add
可以看到需要链接 s1,如果没有 s1,那会导致数据相加错误,出现 NaN。 这个时候,我们应该使用 add: 在 s1 的基础上 add(s2, fill_value="如果出现没有值的情况,以 0 代替")。
2、相减——sub
3、相乘——mul
4、相除——div
八、求最大值、最小值、求和值、平均值
九、describe() —— 数据分析方法
十、apply() —— 定义函数判断数据
apply() 对数据批量处理。
十一、DataFrame —— 创建二维数组
十二、修改标签
标签名要统一,否则会报错;但是可以缺少,但数据也要缺少,一一对应。 特别:标签会自动排序好。


