Python Pandas 库核心功能与实战指南 | 极客日志

PythonAI

Python Pandas 库核心功能与实战指南

Pandas 是 Python 数据分析的核心库，提供 Series 和 DataFrame 两种主要数据结构。涵盖导入库、创建对象、索引操作（loc/iloc）、算术运算、聚合统计及数据筛选等关键功能。通过实际案例演示如何计算平均值、提取特定数据，帮助开发者快速掌握数据处理流程。

狂少发布于 2026/3/25更新于 2026/7/2539 浏览

概述

Pandas 是基于 Python 构建的开源数据分析库，提供了强大的数据结构和运算功能。其核心在于两种数据结构：

Series：一维数组，类似 Numpy 的一维 array，但带有索引标签，可存储字符串、布尔值或数字等多种类型。
DataFrame：二维表格型结构，类似 SQL 表或 Excel 工作表。每列可以是不同数据类型，拥有列名和行索引，是 Pandas 处理数据的核心容器。

导入库

通常将 Pandas 简写为 pd 以便调用：

import pandas as pd

Series 基础操作

创建与查看

创建 Series 时，默认索引从 0 开始。可以通过 index 属性查看下标标签，使用 values 获取实际数值。

s = pd.Series([1, 2, 3])
print(s.index)  # 输出类似 range(0, 3)
print(s.values) # 直接查看下标对应的值

注意区分标签（Label）和下标（Position）。如果自定义了索引标签，访问时需注意区别。

指定标签与索引

当设置自定义索引后，原默认下标会发生变化。例如，若将第一个元素标签设为 5，则无法通过位置 0 直接访问该值，此时需借助 iloc 和 loc。

iloc：基于整数位置（原下标），计算机视角的记忆。
loc：基于自定义标签，用户视角的标识。

s = pd.Series([1, 2, 3], index=[5, 6, 7])
# s.iloc[0] 获取位置 0 的值
# s.loc[5]   获取标签为 5 的值

对象创建与修改

Series 本质上是一维数据，内部结构类似字典的键值对（Key: Value）。

修改数据

利用 loc 可通过标签定位并修改值：

s['小张'] = 95

筛选数据

支持布尔索引进行条件筛选，逻辑运算符在 Pandas 中需用 & 代替 and：

result = s[(s > 80) & (s < )]

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

# 相加示例
result = s1.add(s2, fill_value=0)

# 相减
result = s1.sub(s2)
# 相乘
result = s1.mul(s2)
# 相除
result = s1.div(s2)

s.max()
s.min()
s.sum()
s.mean()

s.apply(lambda x: x * 2)

df = pd.DataFrame({'姓名': ['A', 'B'], '成绩': [90, 85]})

df_transposed = df.T

# 提取班级列
class_data = df['班级']
# 提取学号和成绩
data = df[['学号', '成绩']]

# 标签切片
df.loc['001':'006']
# 下标切片
df.iloc[1:4]
# 行列混合切片
df.loc[:, '考试 1':'考试 3']

filtered = df[df['成绩'] > 80]

# 删除第 0 行和第 2 行
df.drop([0, 2], axis=0)
# 删除考试 2 列
df.drop('考试 2', axis=1)

avg_scores = df.mean(axis=1)

import numpy as np

# 选取部分列
subset = df.loc[:, '考试 1':'考试 3']
# 定义匿名函数，取排序后倒数第二个值
second_max = subset.apply(lambda x: np.sort(x)[-2])

Python Pandas 库核心功能与实战指南

概述

导入库

Series 基础操作

创建与查看

指定标签与索引

对象创建与修改

修改数据

筛选数据

更多推荐文章

相关免费在线工具

算术运算

统计与分析

DataFrame 操作

创建与结构

查看属性

行列交换

数据提取

切片操作

筛选与删除

案例实操

计算平均值

提取第二大值

更多推荐文章

相关免费在线工具

Python Pandas 库核心功能与实战指南

概述

导入库

Series 基础操作

创建与查看

指定标签与索引

对象创建与修改

修改数据

筛选数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

算术运算

统计与分析

DataFrame 操作

创建与结构

查看属性

行列交换

数据提取

切片操作

筛选与删除

案例实操

计算平均值

提取第二大值

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具