Python 办公自动化实战:Excel、Word 与 PPT 批量处理指南
环境准备与核心库选型
在动手之前,先确保 Python 环境就绪。建议安装 3.7 及以上版本,安装时务必勾选'Add Python to PATH',这样命令行才能直接调用。
验证安装是否成功,输入 python --version,看到版本号即表示环境配置完毕。
针对办公场景,我们需要安装以下核心第三方库。它们各司其职,覆盖了从数据处理到文档生成的主要需求:
| 处理对象 | 核心库 | 主要功能 |
|---|---|---|
| Excel | openpyxl、pandas | 读写文件、数据分析与清洗 |
| Word | python-docx | 读取、修改、创建 .docx 文档 |
| PPT | python-pptx | 创建和修改演示文稿 |
PyPDF2、pdfplumber | 合并拆分、文本提取 |
安装命令很简单,直接在终端执行:
pip install openpyxl pandas python-docx python-pptx PyPDF2 pdfplumber
需要注意的是,openpyxl 仅支持 .xlsx 格式,老旧的 .xls 二进制文件需要其他方案。后续实战中我们会根据具体需求选择合适的工具。
Excel 自动化:数据清洗与报表生成
Excel 是职场高频工具,自动化收益也最明显。常见场景包括数据清洗(去重、格式统一)、批量合并/拆分表格,以及基于模板生成报表。
openpyxl vs pandas:怎么选?
这两个库各有侧重,理解它们的区别能帮你避开坑:
- openpyxl:专注于文件本身的精细化操作。最大优势是保留原有样式、公式和格式。适合基于设计好的模板填充数据,保持美观。但它只支持
.xlsx,且纯数据分析效率不如 pandas。 - pandas:数据处理领域的王者。读取、清洗、筛选、聚合极其强大,适合复杂变换。缺点是无法保留 Excel 原有格式,主要用于纯数据交换。
实战经验:两者结合效果最佳——先用 pandas 清洗分析数据,最后用 openpyxl 写入带格式的模板。
场景一:批量合并多个 Excel 文件
假设你有 12 个月的销售数据文件,需要合并成年度总表。手动复制粘贴不仅耗时还容易出错。用 Python 可以一键完成:遍历文件夹找出所有 Excel 文件,读取数据后合并保存。
核心逻辑如下:
import pandas as pd
import glob
files = glob.glob('data/*.xlsx')
dfs = [pd.read_excel(f) for f in files]
merged_df = pd.concat(dfs, ignore_index=)
merged_df.to_excel(, index=)

