Python Pandas 核心用法实战指南 | 极客日志

PythonAI算法

Python Pandas 核心用法实战指南

Pandas 是 Python 数据分析的核心库，主要包含 Series 和 DataFrame 两种数据结构。本文详细讲解了 Series 的创建、索引管理（loc/iloc）、算术运算及 apply 方法；深入介绍了 DataFrame 的行列属性查看、切片提取、数据筛选与 drop 操作。重点解析了 axis 参数在聚合计算中的方向含义，并通过计算平均值和筛选第二大值的案例展示了实际应用技巧。内容涵盖从基础导入到高级筛选的全流程，适合希望快速上手 Pandas 的开发者参考。

RustyLab发布于 2026/3/25更新于 2026/7/2136 浏览

Python Pandas 核心用法实战指南

Pandas 是基于 Python 构建的开源数据分析库，提供了强大的数据结构和运算功能。在数据处理领域，它几乎是事实上的标准工具。

Pandas 的核心数据结构主要有两个：

Series：一维数组，类似 Numpy 的一维 array，但带有索引标签，可存储字符串、布尔值、数字等多种类型。
DataFrame：二维表格型结构，类似 SQL 表或 Excel 工作表。每列可以是不同的数据类型，拥有列名和行索引。这是 Pandas 最核心的数据结构，支持丰富的操作方法。

环境准备

使用前需导入 Pandas 库，通常约定简写为 pd：

import pandas as pd

Series 数据结构详解

创建与基础属性

Series 从索引 0 开始存储数据。我们可以通过 index 查看下标（标签），通过 values 获取具体的数值。

s = pd.Series([1, 2, 3])
print(s.index)  # 输出类似 range(0, 3)
print(s.values) # 直接查看下标的值

注意区分下标和标签。默认情况下，下标是整数索引，而标签是我们自定义的键。如果修改了标签，直接使用下标访问可能会报错，这时需要用到 iloc 和 loc。

loc 与 iloc 的区别

iloc：基于位置（整数下标），计算机默认的内存记忆。
loc：基于标签（我们自定义的键），由用户自主指定。

例如，若将索引标签设为 5，则下标 0 对应的值可能不再是 0，而是对应标签 5 的值。理解这一点对于后续的数据筛选至关重要。

数据操作

修改数据：使用 loc 可以通过标签定位并修改值。

s.loc['小张'] = 95

筛选数据：结合逻辑运算符进行条件判断。

# & 代表 and，用于组合多个条件
result = s[(s > 80) & (s < 100)]

算术运算：支持加、减、乘、除等操作。当两个 Series 相加时，若索引不匹配，结果会出现 NaN。可以使用 add 方法配合 fill_value 参数处理缺失值。

# 对齐索引后相加，缺失处填 0
res = s1.add(s2, fill_value=)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

df = pd.DataFrame({'姓名': ['A', 'B'], '成绩': [90, 85]})

# 提取班级数据
class_data = df['班级']
# 提取学号和成绩
sub_df = df[['学号', '成绩']]

mask = df['成绩'] > 80
filtered_df = df[mask]

# axis=0 表示按行删除，axis=1 表示按列删除
df.drop([0, 2], axis=0, inplace=True)

# 计算每一行的平均分
row_mean = df.mean(axis=1)

import numpy as np

# 选取特定列，应用匿名函数
second_largest = df.loc[:, '考试 1':'考试 3'].apply(
    lambda x: np.sort(x)[-2]
)

Python Pandas 核心用法实战指南

Python Pandas 核心用法实战指南

环境准备

Series 数据结构详解

创建与基础属性

loc 与 iloc 的区别

数据操作

更多推荐文章

相关免费在线工具

DataFrame 操作实战

创建与属性

切片与提取

筛选与聚合

综合案例

计算平均值

筛选第二大值

更多推荐文章

相关免费在线工具

Python Pandas 核心用法实战指南

Python Pandas 核心用法实战指南

环境准备

Series 数据结构详解

创建与基础属性

loc 与 iloc 的区别

数据操作

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

DataFrame 操作实战

创建与属性

切片与提取

筛选与聚合

综合案例

计算平均值

筛选第二大值

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具