详解 Python 数据处理库 Pandas 使用方法

Python 数据处理库 pandas 的核心用法。内容涵盖环境安装与导入、多源数据（CSV/Excel/SQL）的读写、数据概览与筛选方法、常见数据清洗技巧（去空/缺失值/重复值）、分组聚合操作以及数据合并与透视表技术。通过具体代码示例展示了如何利用 pandas 高效完成数据预处理与分析任务，适合初学者快速掌握数据处理流程。

赛博行者发布于 2025/2/6更新于 2026/7/2044 浏览

pandas 是 Python 中最受欢迎的数据处理和分析库之一，它提供了高效的数据结构（如 Series 和 DataFrame）和数据操作工具。本文将详细介绍 pandas 库的使用方法，包括数据导入与导出、数据查看和筛选、数据处理和分组操作等。通过代码示例和详细解释，帮助你全面了解和应用 pandas 库进行数据处理和分析。

一、安装和导入 pandas 库

在使用 pandas 之前，首先需要安装 pandas 库。可以使用 pip 命令进行安装：

pip install pandas

安装完成后，我们可以使用 import 语句导入 pandas 库，通常约定使用别名 pd：

import pandas as pd

通过导入 pandas 库，并使用约定的别名 pd，我们可以使用 pandas 库提供的丰富功能。

二、数据导入与导出

1. 导入数据

pandas 库提供了多种方法来导入数据，包括从 CSV 文件、Excel 文件、数据库等导入数据。

import pandas as pd
import sqlite3

# 从 CSV 文件导入数据
df_csv = pd.read_csv('data.csv')

# 从 Excel 文件导入数据
df_excel = pd.read_excel('data.xlsx')

# 从数据库导入数据
conn = sqlite3.connect('database.db')
query = 'SELECT * FROM table_name'
df_db = pd.read_sql(query, conn)

在上面的例子中，我们分别从 CSV 文件、Excel 文件和数据库中导入了数据。通过 pandas 提供的相应函数，我们可以方便地从不同数据源导入数据，并将其转换为 pandas 的数据结构。

2. 导出数据

pandas 库同样提供了多种方法来导出数据，将数据保存为 CSV 文件、Excel 文件等格式。

import pandas as pd
import sqlite3

# 将数据保存为 CSV 文件
df.to_csv('data.csv', index=False)

# 将数据保存为 Excel 文件
df.to_excel('data.xlsx', index=False)

# 将数据保存到数据库
conn = sqlite3.connect('database.db')
df.to_sql('table_name', conn, if_exists='replace', index=False)

在上面的例子中，我们分别将数据保存为 CSV 文件、Excel 文件和数据库。通过 pandas 提供的相应函数，我们可以方便地将数据导出到不同的目标。

三、数据查看和筛选

1. 查看数据

pandas 库提供了多种方法来查看数据，包括查看数据头部、尾部、摘要统计信息等。

import pandas as pd

# 查看数据头部（默认前 5 行）
print(df.head())

# 查看数据尾部（默认后 5 行）
print(df.tail())

# 查看摘要统计信息（数值列的统计描述）
print(df.describe())

# 查看数据结构信息（非数值列的信息）
print(df.info())

在上面的例子中，我们分别使用了 head()、tail()、describe() 和 info() 函数来查看数据的头部、尾部、摘要统计信息和结构信息。

2. 筛选数据

pandas 库提供了强大的功能来筛选数据，可以根据条件、索引等进行数据的筛选和提取。

import pandas as pd

# 根据条件筛选数据（布尔索引）
filtered_df = df[df['column_name'] > 10]

# 根据标签索引筛选数据
filtered_df = df.loc[1:5]

# 根据位置索引筛选数据
filtered_df = df.iloc[1:5]

# 根据列名筛选数据
selected_columns = ['column1', 'column2']
filtered_df = df[selected_columns]

在上面的例子中，我们分别根据条件、标签索引、位置索引和列名对数据进行了筛选。通过 pandas 提供的功能，我们可以方便地根据不同的需求进行数据的筛选和提取。

四、数据处理和分组操作

1. 数据处理

pandas 库提供了丰富的数据处理功能，包括数据清洗、缺失值处理、重复值处理等。

import pandas as pd

# 数据清洗（去除字符串空白字符）
df['column_name'] = df['column_name'].str.strip()

# 缺失值处理（删除包含缺失值的行）
df.dropna(inplace=True)

# 重复值处理（删除重复行）
df.drop_duplicates(inplace=True)

# 填充缺失值
df.fillna(0, inplace=True)

在上面的例子中，我们分别对数据进行了清洗、缺失值处理和重复值处理。通过 pandas 提供的功能，我们可以方便地对数据进行各种处理，使数据更加干净和规范。

2. 分组操作

pandas 库支持数据的分组操作，可以根据某些列进行分组，并进行聚合计算。

import pandas as pd

# 按列进行分组并计算平均值
grouped_df = df.groupby('column_name').mean()

# 多列分组并计算总和
grouped_df = df.groupby(['column1', 'column2']).sum()

# 多重聚合计算
grouped_df = df.groupby('category')['value'].agg(['mean', 'sum', 'count'])

在上面的例子中，我们分别按列进行了分组，并计算了平均值；另外，我们还进行了多列分组，并计算了总和。pandas 的分组操作提供了强大的功能，可以方便地进行数据聚合和分析。

五、数据合并与重塑

除了基础操作外，pandas 还支持数据合并与透视表操作，这对于复杂数据分析至关重要。

1. 数据合并

可以使用 merge 或 concat 函数合并多个 DataFrame。

import pandas as pd

# 基于键合并（类似 SQL JOIN）
merged_df = pd.merge(df1, df2, on='key_column', how='inner')

# 纵向堆叠
df_concat = pd.concat([df1, df2], axis=0)

2. 透视表

pivot_table 函数可以将长格式数据转换为宽格式，便于分析。

# 创建透视表
pivot_df = pd.pivot_table(df, values='sales', index='region', columns='product', aggfunc='sum')

六、总结

本文详细介绍了 Python 第三方库 pandas 的使用方法。通过安装和导入 pandas 库、数据导入与导出、数据查看和筛选、数据处理和分组操作、以及数据合并与重塑等示例，我们全面了解了 pandas 库在数据处理和分析中的强大功能。pandas 提供了高效的数据结构和数据操作工具，使得数据处理和分析变得更加便捷和灵活。希望本文能够帮助你理解和应用 pandas 库，提升数据处理和分析的能力。

一、安装和导入 pandas 库

在使用 pandas 之前，首先需要安装 pandas 库。可以使用 pip 命令进行安装：

pip install pandas

安装完成后，我们可以使用 import 语句导入 pandas 库，通常约定使用别名 pd：

import pandas as pd

通过导入 pandas 库，并使用约定的别名 pd，我们可以使用 pandas 库提供的丰富功能。

二、数据导入与导出

1. 导入数据

pandas 库提供了多种方法来导入数据，包括从 CSV 文件、Excel 文件、数据库等导入数据。

import pandas as pd
import sqlite3

# 从 CSV 文件导入数据
df_csv = pd.read_csv('data.csv')

# 从 Excel 文件导入数据
df_excel = pd.read_excel('data.xlsx')

# 从数据库导入数据
conn = sqlite3.connect('database.db')
query = 'SELECT * FROM table_name'
df_db = pd.read_sql(query, conn)

2. 导出数据

pandas 库同样提供了多种方法来导出数据，将数据保存为 CSV 文件、Excel 文件等格式。

import pandas as pd
import sqlite3

# 将数据保存为 CSV 文件
df.to_csv('data.csv', index=False)

# 将数据保存为 Excel 文件
df.to_excel('data.xlsx', index=False)

# 将数据保存到数据库
conn = sqlite3.connect('database.db')
df.to_sql('table_name', conn, if_exists='replace', index=False)

在上面的例子中，我们分别将数据保存为 CSV 文件、Excel 文件和数据库。通过 pandas 提供的相应函数，我们可以方便地将数据导出到不同的目标。

三、数据查看和筛选

1. 查看数据

pandas 库提供了多种方法来查看数据，包括查看数据头部、尾部、摘要统计信息等。

import pandas as pd

# 查看数据头部（默认前 5 行）
print(df.head())

# 查看数据尾部（默认后 5 行）
print(df.tail())

# 查看摘要统计信息（数值列的统计描述）
print(df.describe())

# 查看数据结构信息（非数值列的信息）
print(df.info())

在上面的例子中，我们分别使用了 head()、tail()、describe() 和 info() 函数来查看数据的头部、尾部、摘要统计信息和结构信息。

2. 筛选数据

pandas 库提供了强大的功能来筛选数据，可以根据条件、索引等进行数据的筛选和提取。

import pandas as pd

# 根据条件筛选数据（布尔索引）
filtered_df = df[df['column_name'] > 10]

# 根据标签索引筛选数据
filtered_df = df.loc[1:5]

# 根据位置索引筛选数据
filtered_df = df.iloc[1:5]

# 根据列名筛选数据
selected_columns = ['column1', 'column2']
filtered_df = df[selected_columns]

四、数据处理和分组操作

1. 数据处理

pandas 库提供了丰富的数据处理功能，包括数据清洗、缺失值处理、重复值处理等。

import pandas as pd

# 数据清洗（去除字符串空白字符）
df['column_name'] = df['column_name'].str.strip()

# 缺失值处理（删除包含缺失值的行）
df.dropna(inplace=True)

# 重复值处理（删除重复行）
df.drop_duplicates(inplace=True)

# 填充缺失值
df.fillna(0, inplace=True)

2. 分组操作

pandas 库支持数据的分组操作，可以根据某些列进行分组，并进行聚合计算。

import pandas as pd

# 按列进行分组并计算平均值
grouped_df = df.groupby('column_name').mean()

# 多列分组并计算总和
grouped_df = df.groupby(['column1', 'column2']).sum()

# 多重聚合计算
grouped_df = df.groupby('category')['value'].agg(['mean', 'sum', 'count'])

五、数据合并与重塑

除了基础操作外，pandas 还支持数据合并与透视表操作，这对于复杂数据分析至关重要。

1. 数据合并

可以使用 merge 或 concat 函数合并多个 DataFrame。

import pandas as pd

# 基于键合并（类似 SQL JOIN）
merged_df = pd.merge(df1, df2, on='key_column', how='inner')

# 纵向堆叠
df_concat = pd.concat([df1, df2], axis=0)

2. 透视表

pivot_table 函数可以将长格式数据转换为宽格式，便于分析。

# 创建透视表
pivot_df = pd.pivot_table(df, values='sales', index='region', columns='product', aggfunc='sum')

详解 Python 数据处理库 Pandas 使用方法

一、安装和导入 pandas 库

二、数据导入与导出

1. 导入数据

2. 导出数据

三、数据查看和筛选

1. 查看数据

2. 筛选数据

四、数据处理和分组操作

1. 数据处理

2. 分组操作

五、数据合并与重塑

1. 数据合并

2. 透视表

六、总结

详解 Python 数据处理库 Pandas 使用方法

一、安装和导入 pandas 库

二、数据导入与导出

1. 导入数据

2. 导出数据

三、数据查看和筛选

1. 查看数据

2. 筛选数据

四、数据处理和分组操作

1. 数据处理

2. 分组操作

五、数据合并与重塑

1. 数据合并

2. 透视表

六、总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

详解 Python 数据处理库 Pandas 使用方法

一、安装和导入 pandas 库

二、数据导入与导出

1. 导入数据

2. 导出数据

三、数据查看和筛选

1. 查看数据

2. 筛选数据

四、数据处理和分组操作

1. 数据处理

2. 分组操作

五、数据合并与重塑

1. 数据合并

2. 透视表

六、总结

详解 Python 数据处理库 Pandas 使用方法

一、安装和导入 pandas 库

二、数据导入与导出

1. 导入数据

2. 导出数据

三、数据查看和筛选

1. 查看数据

2. 筛选数据

四、数据处理和分组操作

1. 数据处理

2. 分组操作

五、数据合并与重塑

1. 数据合并

2. 透视表

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具