跳到主要内容详解 Python 数据处理库 Pandas 使用方法 | 极客日志PythonAI算法
详解 Python 数据处理库 Pandas 使用方法
本文介绍了 Python 数据处理库 pandas 的核心用法。内容涵盖环境安装与导入、多源数据(CSV/Excel/SQL)的读写、数据概览与筛选方法、常见数据清洗技巧(去空/缺失值/重复值)、分组聚合操作以及数据合并与透视表技术。通过具体代码示例展示了如何利用 pandas 高效完成数据预处理与分析任务,适合初学者快速掌握数据处理流程。
赛博行者2 浏览 pandas 是 Python 中最受欢迎的数据处理和分析库之一,它提供了高效的数据结构(如 Series 和 DataFrame)和数据操作工具。本文将详细介绍 pandas 库的使用方法,包括数据导入与导出、数据查看和筛选、数据处理和分组操作等。通过代码示例和详细解释,帮助你全面了解和应用 pandas 库进行数据处理和分析。
一、安装和导入 pandas 库
在使用 pandas 之前,首先需要安装 pandas 库。可以使用 pip 命令进行安装:
安装完成后,我们可以使用 import 语句导入 pandas 库,通常约定使用别名 pd:
通过导入 pandas 库,并使用约定的别名 pd,我们可以使用 pandas 库提供的丰富功能。
二、数据导入与导出
1. 导入数据
pandas 库提供了多种方法来导入数据,包括从 CSV 文件、Excel 文件、数据库等导入数据。
import pandas as pd
import sqlite3
df_csv = pd.read_csv('data.csv')
df_excel = pd.read_excel('data.xlsx')
conn = sqlite3.connect('database.db')
query = 'SELECT * FROM table_name'
df_db = pd.read_sql(query, conn)
在上面的例子中,我们分别从 CSV 文件、Excel 文件和数据库中导入了数据。通过 pandas 提供的相应函数,我们可以方便地从不同数据源导入数据,并将其转换为 pandas 的数据结构。
2. 导出数据
pandas 库同样提供了多种方法来导出数据,将数据保存为 CSV 文件、Excel 文件等格式。
import pandas as pd
import sqlite3
df.to_csv('data.csv', index=False)
df.to_excel('data.xlsx', index=False)
conn = sqlite3.connect('database.db')
df.to_sql('table_name', conn, if_exists='replace', index=False)
在上面的例子中,我们分别将数据保存为 CSV 文件、Excel 文件和数据库。通过 pandas 提供的相应函数,我们可以方便地将数据导出到不同的目标。
三、数据查看和筛选
1. 查看数据
pandas 库提供了多种方法来查看数据,包括查看数据头部、尾部、摘要统计信息等。
import pandas as pd
print(df.head())
print(df.tail())
print(df.describe())
print(df.info())
在上面的例子中,我们分别使用了 head()、tail()、describe() 和 info() 函数来查看数据的头部、尾部、摘要统计信息和结构信息。
2. 筛选数据
pandas 库提供了强大的功能来筛选数据,可以根据条件、索引等进行数据的筛选和提取。
import pandas as pd
filtered_df = df[df['column_name'] > 10]
filtered_df = df.loc[1:5]
filtered_df = df.iloc[1:5]
selected_columns = ['column1', 'column2']
filtered_df = df[selected_columns]
在上面的例子中,我们分别根据条件、标签索引、位置索引和列名对数据进行了筛选。通过 pandas 提供的功能,我们可以方便地根据不同的需求进行数据的筛选和提取。
四、数据处理和分组操作
1. 数据处理
pandas 库提供了丰富的数据处理功能,包括数据清洗、缺失值处理、重复值处理等。
import pandas as pd
df['column_name'] = df['column_name'].str.strip()
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)
df.fillna(0, inplace=True)
在上面的例子中,我们分别对数据进行了清洗、缺失值处理和重复值处理。通过 pandas 提供的功能,我们可以方便地对数据进行各种处理,使数据更加干净和规范。
2. 分组操作
pandas 库支持数据的分组操作,可以根据某些列进行分组,并进行聚合计算。
import pandas as pd
grouped_df = df.groupby('column_name').mean()
grouped_df = df.groupby(['column1', 'column2']).sum()
grouped_df = df.groupby('category')['value'].agg(['mean', 'sum', 'count'])
在上面的例子中,我们分别按列进行了分组,并计算了平均值;另外,我们还进行了多列分组,并计算了总和。pandas 的分组操作提供了强大的功能,可以方便地进行数据聚合和分析。
五、数据合并与重塑
除了基础操作外,pandas 还支持数据合并与透视表操作,这对于复杂数据分析至关重要。
1. 数据合并
可以使用 merge 或 concat 函数合并多个 DataFrame。
import pandas as pd
merged_df = pd.merge(df1, df2, on='key_column', how='inner')
df_concat = pd.concat([df1, df2], axis=0)
2. 透视表
pivot_table 函数可以将长格式数据转换为宽格式,便于分析。
pivot_df = pd.pivot_table(df, values='sales', index='region', columns='product', aggfunc='sum')
六、总结
本文详细介绍了 Python 第三方库 pandas 的使用方法。通过安装和导入 pandas 库、数据导入与导出、数据查看和筛选、数据处理和分组操作、以及数据合并与重塑等示例,我们全面了解了 pandas 库在数据处理和分析中的强大功能。pandas 提供了高效的数据结构和数据操作工具,使得数据处理和分析变得更加便捷和灵活。希望本文能够帮助你理解和应用 pandas 库,提升数据处理和分析的能力。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online