Python Pandas 核心用法与实战指南 | 极客日志

PythonAI算法

Python Pandas 核心用法与实战指南

Pandas 是 Python 数据分析的核心库，提供 Series 和 DataFrame 两种主要数据结构。涵盖导入库、创建对象、索引操作（loc/iloc）、算术运算、聚合统计及筛选切片等基础功能，并通过均值计算与第二大值提取案例演示实际应用，帮助开发者快速掌握数据处理流程。

刀狂发布于 2026/3/27更新于 2026/7/2167 浏览

概述

Pandas 是基于 Python 构建的开源数据分析库，提供了强大的数据结构和运算功能。在数据处理领域，它几乎是事实上的标准工具。

核心数据结构主要有两个：

Series：一维数组，类似 Numpy 的一维 array，但带有索引标签，可存储字符串、布尔值或数字等多种类型。
DataFrame：二维表格型结构，类似 SQL 表或 Excel 工作表。每列可以是不同数据类型，拥有列名和行索引，是 Pandas 的核心。

环境准备

使用前需导入库，通常简写为 pd：

import pandas as pd

Series 基础操作

创建与查看

创建一个从 0 开始索引的 Series：

s = pd.Series([1, 2, 3])
print(s)

使用 index 属性查看索引标签，values 属性获取底层数值数组：

print(s.index)  # 输出类似 range(0, 3)
print(s.values) # 直接查看下标的值

注意：索引（Index）是数据的标签，下标（Position）是计算机内部的记忆位置，两者概念不同。

自定义标签与访问

可以为 Series 指定自定义标签。此时默认整数下标不再适用，需要使用 .iloc（基于位置）或 .loc（基于标签）来访问数据。

s = pd.Series([1, 5, 2], index=['a', 'b', 'c'])
# s.loc['b'] 返回 5
# s.iloc[1] 也返回 5

iloc：基于原下标（整数位置），计算机视角的记忆。
loc：基于修改后的标签（自定义名称），用户视角的标识。

键值对与字典

Series 本质上是一维数据，其'键'类似于字典的 Key。理解键值对有助于后续操作。

s = pd.Series({'小张': 90, '小李': 85})
# 修改数据
s.loc[] = 

result = s[s > ]

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index=['b', 'c', 'd'])

# 普通运算会产生 NaN
# print(s1 + s2)

# 使用 fill_value=0 填充缺失值
print(s1.add(s2, fill_value=0))

s.max()
s.min()
s.sum()
s.mean()

s.apply(lambda x: x * 2)

df = pd.DataFrame({
    '姓名': ['A', 'B', 'C'],
    '成绩': [80, 90, 85]
})

# 筛选成绩大于 85 的行
filtered = df[df['成绩'] > 85]

# 删除第 0 行和第 2 行
df.drop([0, 2], axis=0)
# 删除考试 2 列
df.drop('考试 2', axis=1)

df.mean(axis=1)

import numpy as np

# 选取部分列
subset = df.loc[:, '考试 1':'考试 3']

# 定义函数：取每行排序后的倒数第二个值
second_max = subset.apply(lambda x: np.sort(x)[-2])

Python Pandas 核心用法与实战指南

概述

环境准备

Series 基础操作

创建与查看

自定义标签与访问

键值对与字典

更多推荐文章

相关免费在线工具

算术运算

统计与分析

DataFrame 操作

创建与结构

数据提取与切片

筛选与过滤

删除数据

实战案例

案例一：计算平均值

案例二：筛选第二大值

更多推荐文章

相关免费在线工具

Python Pandas 核心用法与实战指南

概述

环境准备

Series 基础操作

创建与查看

自定义标签与访问

键值对与字典

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

算术运算

统计与分析

DataFrame 操作

创建与结构

数据提取与切片

筛选与过滤

删除数据

实战案例

案例一：计算平均值

案例二：筛选第二大值

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具