Python 处理 PDF 工具——PyMuPDF 的安装与使用

PyMuPDF 简介与安装

1. PyMuPDF 简介

1.1 MuPDF 概述

在介绍 PyMuPDF 之前，首先需要了解其底层库 MuPDF。从命名形式可以看出，PyMuPDF 是 MuPDF 的 Python 接口形式。

MuPDF 是一个轻量级的 PDF、XPS 和电子书查看器。它由软件库、命令行工具和各种平台的查看器组成。

渲染能力：MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时获得最高保真度。
格式支持：这个观察器很小，速度很快，但是很完整。它支持多种文档格式，如 PDF、XPS、OpenXPS、CBZ、EPUB 和 FictionBook 2。
功能：您可以使用移动查看器对 PDF 文档进行注释和填写表单。命令行工具允许您注释、编辑文档，并将文档转换为其他格式，如 HTML、SVG、PDF 和 CBZ。您还可以使用 Javascript 编写脚本来操作文档。

1.2 PyMuPDF 特性

PyMuPDF(当前版本 1.18.17) 是支持 MuPDF(当前版本 1.18.*) 的 Python 绑定。

使用 PyMuPDF，你可以访问扩展名为 .pdf、.xps、.oxps、.cbz、.fb2 或 .epub。此外，大约 10 种流行的图像格式也可以像文档一样处理：.png、.jpg、.bmp、.tiff 等。

对于所有支持的文档类型可以：

解密文件
访问元信息、链接和书签
以栅格格式（PNG 和其他格式）或矢量格式 SVG 呈现页面
搜索文本
提取文本和图像
转换为其他格式：PDF, (X)HTML, XML, JSON, text

对于 PDF 文档，存在大量的附加功能：它们可以创建、合并或拆分。页面可以通过多种方式插入、删除、重新排列或修改 (包括注释和表单字段)。

可以提取或插入图像和字体，完全支持嵌入式文件。pdf 文件可以重新格式化，以支持双面打印，色调分离，应用标志或水印。

完全支持密码保护：解密、加密、加密方法选择、权限级别和用户/所有者密码设置。

支持图像、文本和绘图的 PDF 可选内容概念，可以访问和修改低级 PDF 结构。

命令行模块 "python -m fitz..." 具有以下特性的多功能实用程序：

加密/解密/优化
创建子文档
文档连接
图像/字体提取
完全支持嵌入式文件
保存布局的文本提取 (所有文档)

新：布局保存文本提取! 脚本通过子命令提供不同格式的文本提取。特别有趣的当然是布局保存，它生成的文本尽可能接近原始物理布局，周围有图像的区域，或者在表格和多列文本中复制文本。

方法/属性	描述
`Document.page_count`	页数 (int)
`Document.metadata`	元数据 (dict)
`Document.get_toc()`	获取目录 (list)
`Document.load_page()`	读取页面

Key	Value
producer	producer (producing software)
format	format: 'PDF-1.4', 'EPUB', etc.
encryption	encryption method used if any
author	author
modDate	date of last modification
keywords	keywords
title	title
creationDate	date of creation
creator	creating application
subject	subject

Python 处理 PDF 工具——PyMuPDF 的安装与使用

PyMuPDF 简介与安装

1. PyMuPDF 简介

1.1 MuPDF 概述

1.2 PyMuPDF 特性

更多推荐文章

相关免费在线工具

2. 安装方法

关于命名 fitz 的说明

3. 基础使用

3.1 导入库，查看版本

3.2 打开文档

3.3 Document 的方法和属性

3.4 获取元数据

3.5 获取目标大纲

3.6 页面 (Page) 操作

a. 检查页面的链接、批注或表单字段

b. 呈现页面

c. 将页面图像保存到文件中

d. 提取文本和图像

e. 搜索文本

4. PDF 操作

4.1 修改、创建、重新排列和删除页面

4.2 连接和拆分 PDF 文档

4.3 保存与关闭

5. 最佳实践与完整示例

5.1 使用上下文管理器

5.2 文本提取深度示例

5.3 常见错误处理

更多推荐文章

相关免费在线工具

Python 处理 PDF 工具——PyMuPDF 的安装与使用

PyMuPDF 简介与安装

1. PyMuPDF 简介

1.1 MuPDF 概述

1.2 PyMuPDF 特性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 安装方法

关于命名 fitz 的说明

3. 基础使用

3.1 导入库，查看版本

3.2 打开文档

3.3 Document 的方法和属性

3.4 获取元数据

3.5 获取目标大纲

3.6 页面 (Page) 操作

a. 检查页面的链接、批注或表单字段

b. 呈现页面

c. 将页面图像保存到文件中

d. 提取文本和图像

e. 搜索文本

4. PDF 操作

4.1 修改、创建、重新排列和删除页面

4.2 连接和拆分 PDF 文档

4.3 保存与关闭

5. 最佳实践与完整示例

5.1 使用上下文管理器

5.2 文本提取深度示例

5.3 常见错误处理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具