Python 提取 Word 文档中各种数据的详细方法
本文介绍如何利用 Python 高效提取 Word 文档(.docx 格式)中的数据。Word 文档常用于存储文本、表格、图片、列表等结构化信息,通过自动化提取,可以提升数据分析和处理的效率。基于 Python 库 python-docx,逐步讲解安装、基础操作和高级技巧。
1. 准备工作:安装和导入库
首先,安装 python-docx 库。使用 pip 命令:
pip install python-docx
导入库并加载 Word 文档:
from docx import Document
# 加载 Word 文档,假设文件名为"example.docx"
doc = Document("example.docx")
如果文档路径不确定,可以使用相对路径或绝对路径。确保文件存在,否则会抛出异常。
2. 提取文本内容
文本是 Word 文档的核心,包括段落、标题和正文。python-docx 将文档视为段落集合。
提取所有段落文本:
# 遍历所有段落,提取文本
all_text = []
for paragraph in doc.paragraphs:
all_text.append(paragraph.text)
# 打印提取结果
print("文档全文:")
for text in all_text:
print(text)
- 说明:
paragraphs属性返回一个列表,每个元素代表一个段落。paragraph.text获取纯文本内容。 - 适用场景:提取报告正文、文章内容等。
提取特定标题: Word 文档使用样式标记标题(如'标题 1'、'标题 2')。提取所有标题:
headings = []
for paragraph in doc.paragraphs:
if paragraph.style.name.startswith('Heading'):
# 检查样式名以"Heading"开头
headings.append(paragraph.text)
print("文档标题:")
for heading in headings:
print(heading)
- 技巧:使用
style.name判断样式,支持自定义标题级别。

