Python Pandas 核心数据结构与操作实战 | 极客日志

PythonAI算法

Python Pandas 核心数据结构与操作实战

Pandas 是 Python 数据分析的核心库，提供 Series 和 DataFrame 两种主要数据结构。涵盖导入库、Series 索引机制、loc 与 iloc 的区别、算术运算、统计分析及 DataFrame 的行列操作。通过实战案例演示了均值计算与数据筛选技巧，适合希望快速掌握 Pandas 基础操作的开发者阅读。

黑客发布于 2026/3/23更新于 2026/7/2437 浏览

前言

Pandas 是基于 Python 构建的开源数据分析库，提供了强大的数据结构和运算功能。理解其核心对象是上手的关键：

Series：一维数组，类似 Numpy 的一维 array，但带有索引标签，可存储字符串、布尔值或数字。
DataFrame：二维表格型结构，类似 SQL 表或 Excel，每列数据类型可不同，拥有列名和行索引，是 Pandas 的核心。

接下来我们逐步拆解它的用法。

导入 Pandas 库

通常简写为 pd，这是约定俗成的规范。

import pandas as pd

Series 基础创建

默认情况下，Series 从索引 0 开始存储数据。

s = pd.Series([1, 2, 3])
print(s)

输出结果会显示索引（0, 1, 2）和对应的值。理解索引（Index）和值（Values）的区别很重要。

Index 与 Values 查看

index：返回索引标签，类似于 range 对象，包含 start、stop 和 step 信息。
values：直接获取底层的数值数组。

注意区分'标签'和'下标'。默认情况下它们重合，但自定义索引后会有区别。

自定义索引标签

我们可以指定索引标签。如果修改了标签，原来的位置索引（整数）依然存在，但访问方式需要调整。

s = pd.Series([5, 10, 15], index=['a', 'b', 'c'])
# 此时 s[0] 会报错，因为标签是 'a' 而不是 0

loc 与 iloc 的使用

这是新手最容易混淆的地方，务必分清：

iloc：基于整数位置索引（Position），即计算机内存中的顺序记忆。
loc：基于标签索引（Label），即我们自定义的名称。

例如，若索引被设为 ['a', 'b']，则 iloc[0] 取第一个元素，而 loc['a'] 也取第一个元素，但语义完全不同。实际开发中，推荐优先使用 loc 以保证代码可读性。

字典式创建对象

Series 本质上是一维数据，可以通过字典创建。这里的键（Key）就是数据的标签。

s = pd.Series({'小张': 90, '小李': 85})

修改数据

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

s.loc['小张'] = 95

result = s[s > 90]

s1.add(s2, fill_value=0)

s.apply(lambda x: x * 2)

df = pd.DataFrame({
    '姓名': ['A', 'B'],
    '成绩': [80, 90]
})

df.drop(['row_label'], axis=0)
df.drop(['col_label'], axis=1)

df['新列'] = df['旧列'] + bonus

import numpy as np

def get_second_max(x):
    return np.sort(x)[-2]

# 选取特定列范围并应用函数
df.loc[:, '考试 1':'考试 3'].apply(get_second_max, axis=1)

Python Pandas 核心数据结构与操作实战

前言

导入 Pandas 库

Series 基础创建

Index 与 Values 查看

自定义索引标签

loc 与 iloc 的使用

字典式创建对象

修改数据

更多推荐文章

相关免费在线工具

筛选数据

算术运算

相加 (add)

统计方法

Apply 批量处理

DataFrame 创建与属性

创建二维数组

标签管理

行列属性查看

行列调换

数据提取与切片

提取列

提取行

切片操作

筛选与过滤

头部数据查看

Drop 删除操作

数据合并与赋值

实战案例

案例一：计算平均值

案例二：筛选第二大值

更多推荐文章

相关免费在线工具

Python Pandas 核心数据结构与操作实战

前言

导入 Pandas 库

Series 基础创建

Index 与 Values 查看

自定义索引标签

loc 与 iloc 的使用

字典式创建对象

修改数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

筛选数据

算术运算

相加 (add)

统计方法

Apply 批量处理

DataFrame 创建与属性

创建二维数组

标签管理

行列属性查看

行列调换

数据提取与切片

提取列

提取行

切片操作

筛选与过滤

头部数据查看

Drop 删除操作

数据合并与赋值

实战案例

案例一：计算平均值

案例二：筛选第二大值

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具