Python 使用 Pandas 自动化处理 Excel 数据教程
前言
在日常工作中,Excel 是数据处理最常用的工具之一。然而,面对繁杂的数据操作,手动处理往往效率低下且容易出错。Python 的 Pandas 库提供了强大的数据清洗和分析能力,能够轻松实现 Excel 操作的自动化,显著提升工作效率。
本文将详细介绍如何使用 Pandas 进行 Excel 数据的读取、写入、筛选及修改操作,通过实际代码示例帮助你快速上手。
环境准备
在使用 Pandas 之前,需要安装必要的依赖库。Pandas 本身用于数据处理,而处理 .xlsx 格式文件通常需要 openpyxl 引擎。
pip install pandas openpyxl
如果遇到安装错误,建议先升级 pip 和 setuptools:
python -m pip install --upgrade pip setuptools
DataFrame 核心概念
Pandas 的核心数据结构是 DataFrame(二维表格)和 Series(一维数组)。在 Excel 语境下,它们的对应关系如下:
| Pandas 对象 | Excel 对应概念 |
|---|---|
| DataFrame | Sheet 工作表 |
| Series | 列 (Column) |
| Index | 行号索引 |
| NaN | 空单元格 |
理解这一映射关系有助于将 Excel 思维转化为编程逻辑。
数据输入与输出
1. 创建 DataFrame
我们可以直接在代码中构建一个 DataFrame,模拟 Excel 中的数据。
import pandas as pd
# 创建一个包含两行两列的示例数据
data = {
'姓名': ['张三', '李四'],
'年龄': [25, 30]
}
df = pd.DataFrame(data)
print(df)
2. 读取 Excel 文件
使用 read_excel 方法读取本地 Excel 文件。默认情况下,第一行被视为列名。
# 读取名为 data.xlsx 的文件
# header=0 表示从第 1 行开始作为列名,默认为 0
# index_col=0 表示将第 1 列作为索引
:
df_read = pd.read_excel()
(df_read.head())
FileNotFoundError:
()


