Python Pandas 数据处理核心指南 | 极客日志

PythonAI算法

Python Pandas 数据处理核心指南

Python Pandas 是数据分析的核心库，提供高效的数据结构 Series 和 DataFrame。支持 CSV、Excel、SQL 等多种数据读写，具备强大的缺失值处理、重复值删除及类型转换能力。通过 groupby、merge 等操作实现数据聚合与合并，结合 matplotlib 完成可视化分析。掌握索引选择、时间序列处理及性能优化技巧，可显著提升数据处理效率。

1739658202发布于 2025/2/7更新于 2026/7/2140 浏览

Python Pandas 数据处理核心指南

1. 简介与安装

Pandas 是 Python 语言中用于数据分析的核心库，基于 NumPy 构建。它提供了高性能、易用的数据结构和数据分析工具，广泛应用于数据清洗、转换、分析和可视化领域。

安装方法

使用 pip 进行安装：

pip install pandas

同时建议安装依赖库 numpy 和 matplotlib：

pip install numpy matplotlib

2. 核心数据结构

Pandas 主要提供两种数据结构：Series 和 DataFrame。

Series

Series 是一维带标签的数组，可以存储任何数据类型。

import pandas as pd
import numpy as np

# 创建 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

DataFrame

DataFrame 是二维表格型数据结构，由行索引和列索引组成，每一列可以是不同的数据类型。

# 创建 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4], 
    'B': pd.to_datetime(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04']),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(['test', 'train', , ]),
    : 
})
(df)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

df = pd.read_csv('data.csv')

df = pd.read_excel('data.xlsx')

import sqlite3
conn = sqlite3.connect('example.db')
df = pd.read_sql('SELECT * FROM table', conn)

df = pd.read_json('data.json')

df.to_csv('output.csv', index=False)
df.to_excel('output.xlsx', index=False)

# 删除包含缺失值的行
df_clean = df.dropna()
# 填充缺失值为特定值
df_filled = df.fillna(0)
# 填充缺失值为均值
df_mean = df.fillna(df.mean())

# 删除重复行
df_unique = df.drop_duplicates()
# 统计重复次数
df.duplicated().sum()

# 将某一列转换为浮点型
df['col'] = df['col'].astype(float)
# 时间格式转换
df['date'] = pd.to_datetime(df['date'])

# 筛选出特定范围的数据
df_filtered = df[(df['value'] > 0) & (df['value'] < 100)]

# 按列名获取
col_data = df['column_name']
# 按位置获取
data_at_pos = df.iloc[0]
# 按标签获取
data_at_label = df.loc[0]

# 筛选条件
df[df['age'] > 18]
# 多条件筛选
df[(df['age'] > 18) & (df['city'] == 'Beijing')]

# 升序排序
df.sort_values(by='column_name', ascending=True)
# 降序排序
df.sort_values(by='column_name', ascending=False)

# 按照某一列进行分组，并计算每组的和
grouped = df.groupby('category').sum()

# 对某几列进行聚合计算
df.agg({'col1': 'mean', 'col2': 'sum'})
# 自定义聚合函数
df.groupby('group')['value'].agg(['mean', 'std', 'count'])

# 创建透视表
pivot_df = pd.pivot_table(df, values='sales', index='region', columns='product', aggfunc='sum')

# 纵向拼接
df_concat = pd.concat([df1, df2], axis=0)
# 横向拼接
df_concat = pd.concat([df1, df2], axis=1)

# 类似 SQL 的 join
df_merged = pd.merge(df1, df2, on='key', how='inner')

# 长表转宽表
df_wide = df.pivot(index='date', columns='variable', values='value')
# 宽表转长表
df_long = df_wide.melt(var_name='variable', value_name='value')

# 设置日期为索引
df.set_index('date', inplace=True)
# 重采样
df_resampled = df.resample('M').mean()  # 按月重采样

# 计算移动平均
df['rolling_mean'] = df['value'].rolling(window=3).mean()

# 添加一个月
df['next_month'] = df.index + pd.offsets.MonthEnd(1)

import matplotlib.pyplot as plt

# 折线图
df.plot(x='date', y='value', kind='line')
# 柱状图
df.plot(kind='bar', x='category', y='value')
# 散点图
df.plot(kind='scatter', x='x_col', y='y_col')
# 饼图
df.plot(kind='pie', y='value')
plt.show()

Python Pandas 数据处理核心指南

Python Pandas 数据处理核心指南

1. 简介与安装

安装方法

2. 核心数据结构

Series

DataFrame

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 数据读取与写入

读取 CSV 文件

读取 Excel 文件

读取 SQL 数据库

读取 JSON 文件

写入数据

4. 数据清洗与预处理

缺失值处理

重复值处理

数据类型转换

异常值处理

5. 数据筛选与索引

基本索引

布尔索引

排序

6. 数据聚合与分组

基础分组

多重聚合

透视表

7. 数据合并与重塑

连接数据

合并数据

重塑数据

8. 时间序列处理

时间索引

滚动窗口

日期偏移

9. 数据可视化

10. 性能优化建议

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具