Python Pandas 核心数据结构与操作实战 | 极客日志

PythonAI算法

Python Pandas 核心数据结构与操作实战

Pandas 是 Python 数据分析的核心库，提供 Series 和 DataFrame 两种主要数据结构。内容涵盖导入库、索引机制（loc/iloc）、数据运算（加减乘除及 fill_value 处理）、统计方法（describe/mean）以及切片筛选等实用技巧。通过实际案例演示如何高效处理表格数据，包括缺失值填充、行列操作及复杂条件筛选，帮助开发者快速掌握 Pandas 在数据处理流程中的应用。

云间漫步发布于 2026/3/28更新于 2026/7/2140 浏览

前言

Pandas 是 Python 生态中用于数据分析的核心开源库，提供了强大的数据结构和运算功能。理解其底层逻辑对于高效处理数据至关重要。

Series：一维数组结构，类似于 NumPy 的一维 array，但带有索引标签，可存储字符串、布尔值或数字等多种类型。
DataFrame：二维表格型数据结构，类似 SQL 表或 Excel 工作表。每列可以是不同数据类型，拥有列名和行索引，是 Pandas 最核心的数据结构。

下面我们来拆解一下它的核心用法。

一、导入 Pandas 库

通常使用别名 pd 进行导入：

import pandas as pd

二、使用 Series，创建一维数组

默认情况下，索引从 0 开始：

文章配图

三、index 查看下标，values 查看下标的值

注意： 这里涉及标签（Label）和下标（Position）的区别，详见后文。

index：输出类似于 range 对象。
- start 代表起始标签；stop 代表结束标签（不包含该值，到 n-1）；step 代表步长。
values：直接获取下标对应的实际数值，索引是从 0 开始的。

文章配图

四、使用 index 指定标签

当自定义了索引标签后，默认位置索引会发生变化。例如，如果给第一个元素指定标签为 5，那么访问位置 0 可能会报错，此时需要用到 iloc 和 loc。

文章配图

五、iloc 和 loc 的使用

这是新手最容易混淆的地方，简单区分如下：

iloc：基于整数位置（integer location），即计算机记忆中的默认下标。
loc：基于标签（label），由我们自主定义的索引名称。

可以看到，计算机的下标 1 对应的值是 2，而我们自定义的标签 1 对应的值是 5。

文章配图

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 在 s1 基础上加 s2，缺失值以 0 代替
result = s1.add(s2, fill_value=0)

Python Pandas 核心数据结构与操作实战