Python 操作 PDF 页面详解：删除指定页的完整方案 | 极客日志

PythonAI算法

Python 操作 PDF 页面详解：删除指定页的完整方案

对比了 PyPDF2、Spire.PDF 和 PyMuPDF 三款 Python 库在 PDF 页面删除场景下的实现差异与性能表现。通过代码实战演示了单页删除、批量删除、范围删除及空白页检测等核心功能，并提供了加密文档处理和文件压缩的解决方案。测试结果显示 PyMuPDF 在速度和内存效率上领先，适合高性能需求；PyPDF2 兼容性好，适合入门；Spire.PDF 则适用于企业级复杂文档。文章最后总结了技术选型建议及未来 AI 增强处理趋势，帮助开发者根据实际需求选择最优工具。

leon发布于 2026/3/28更新于 2026/7/2054 浏览

引言：PDF 页面操作的现实需求

在数字化办公场景中，PDF 已成为文档传输的标准格式。但处理 PDF 时，常遇到需要删除特定页面的需求：可能是去除冗余的广告页、删除敏感信息页，或是整理合并后的重复内容。传统方法依赖 Adobe Acrobat 等付费软件，而 Python 通过开源库提供了更灵活的解决方案。本文将以删除指定页为核心场景，对比 PyPDF2、Spire.PDF for Python 等主流库的实现方式，结合真实代码案例与性能测试，给出最优技术选型建议。

文章配图

一、技术选型：三大主流库对比

1. PyPDF2：轻量级选手的经典选择

作为 Python 生态中最成熟的 PDF 处理库，PyPDF2 支持基础的页面操作，其核心优势在于：

安装便捷：pip install PyPDF2即可完成部署
API 直观：采用"读取 - 操作 - 保存"的三段式逻辑
兼容性强：支持 Python 2.7 至 3.12 全版本

典型场景：快速删除单页或批量处理简单 PDF 文件

2. Spire.PDF for Python：企业级解决方案

这款商业库通过 C++ 核心引擎提供高性能操作，特色功能包括：

精准控制：支持页面旋转、注释保留等高级操作
格式兼容：完美处理加密 PDF、复杂排版文档
批量处理：内置多线程优化，适合大规模文档处理

典型场景：金融、法律等对文档完整性要求高的行业

3. PyMuPDF：性能怪兽的另类选择

基于 MuPDF 引擎的 PyMuPDF 在速度测试中表现突出：

渲染速度：比 PyPDF2 快 3-5 倍
功能全面：支持 OCR 识别、表单填写等扩展功能
GPL 协议：开源但需注意商业使用限制

典型场景：需要处理扫描件 PDF 或大规模文档的自动化流程

二、核心实现：删除指定页的代码实战

方案 1：PyPDF2 基础实现

from PyPDF2 import PdfReader, PdfWriter

def delete_page_pypdf2(input_path, output_path, page_to_delete):
    reader = PdfReader(input_path)
    writer = PdfWriter()
    for page_num in range(len(reader.pages)):
        if page_num != page_to_delete:
            writer.add_page(reader.pages[page_num])
     (output_path, )  f:
        writer.write(f)


delete_page_pypdf2(, , )

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from spire.pdf import PdfDocument

def delete_page_spire(input_path, output_path, page_to_delete):
    doc = PdfDocument()
    doc.load_from_file(input_path)
    if 0 <= page_to_delete < doc.pages.count:
        doc.pages.remove_at(page_to_delete)
        doc.save_to_file(output_path)
    else:
        print("Invalid page index")
    doc.close()

# 示例：删除 input.pdf 的第 3 页
delete_page_spire("input.pdf", "output_spire.pdf", 2)

import fitz # PyMuPDF 的别名

def delete_page_pymupdf(input_path, output_path, page_to_delete):
    doc = fitz.open(input_path)
    if 0 <= page_to_delete < len(doc):
        doc.delete_page(page_to_delete)
        doc.save(output_path)
    else:
        print("Invalid page index")
    doc.close()

# 示例：删除 input.pdf 的第 1 页
delete_page_pymupdf("input.pdf", "output_pymupdf.pdf", 0)

# PyPDF2 实现
def delete_multiple_pages(input_path, output_path, pages_to_delete):
    reader = PdfReader(input_path)
    writer = PdfWriter()
    pages_to_keep = [i for i in range(len(reader.pages)) if i not in pages_to_delete]
    for page_num in pages_to_keep:
        writer.add_page(reader.pages[page_num])
    with open(output_path, "wb") as f:
        writer.write(f)

# 删除第 1、3、5 页（索引 0,2,4）
delete_multiple_pages("input.pdf", "output_multi.pdf", [0, 2, 4])

# Spire.PDF 实现
def delete_page_range(input_path, output_path, start_page, end_page):
    doc = PdfDocument()
    doc.load_from_file(input_path)
    # 验证范围有效性
    if start_page < 0 or end_page >= doc.pages.count or start_page > end_page:
        print("Invalid page range")
        return
    # 从后向前删除避免索引变化
    for page_num in range(end_page, start_page - 1, -1):
        doc.pages.remove_at(page_num)
    doc.save_to_file(output_path)
    doc.close()

# 删除第 2-4 页（索引 1-3）
delete_page_range("input.pdf", "output_range.pdf", 1, 3)

# PyMuPDF 实现
def delete_blank_pages(input_path, output_path):
    doc = fitz.open(input_path)
    pages_to_delete = []
    for i in range(len(doc)):
        page = doc[i]
        text = page.get_text("text")
        if not text.strip(): # 判断是否为空白页
            pages_to_delete.append(i)
    # 从后向前删除
    for page_num in sorted(pages_to_delete, reverse=True):
        doc.delete_page(page_num)
    doc.save(output_path)
    doc.close()

# 示例：删除 input.pdf 中的所有空白页
delete_blank_pages("input.pdf", "output_no_blank.pdf")

库名称	执行时间	内存增量	特殊优势
PyPDF2	0.45s	+12MB	纯 Python 实现，兼容性最好
Spire.PDF	0.28s	+8MB	支持保留文档注释和书签
PyMuPDF	0.12s	+5MB	内存效率最高，支持 OCR 扩展

# 使用 PyMuPDF 的压缩功能
def delete_and_compress(input_path, output_path, page_to_delete):
    doc = fitz.open(input_path)
    if 0 <= page_to_delete < len(doc):
        doc.delete_page(page_to_delete)
        doc.save(output_path, garbage=4, deflate=True) # 深度清理
    doc.close()

# PyPDF2 处理加密文档
def delete_encrypted_page(input_path, output_path, page_to_delete, password):
    reader = PdfReader(input_path)
    if reader.is_encrypted:
        reader.decrypt(password)
    writer = PdfWriter()
    for page_num in range(len(reader.pages)):
        if page_num != page_to_delete:
            writer.add_page(reader.pages[page_num])
    with open(output_path, "wb") as f:
        writer.write(f)

Python 操作 PDF 页面详解：删除指定页的完整方案

引言：PDF 页面操作的现实需求

一、技术选型：三大主流库对比

1. PyPDF2：轻量级选手的经典选择

2. Spire.PDF for Python：企业级解决方案

3. PyMuPDF：性能怪兽的另类选择

二、核心实现：删除指定页的代码实战

方案 1：PyPDF2 基础实现

更多推荐文章

相关免费在线工具

方案 2：Spire.PDF 企业级实现

方案 3：PyMuPDF 高性能实现

三、进阶场景：复杂删除需求解决方案

场景 1：批量删除多个不连续页面

场景 2：删除连续页面范围

场景 3：条件删除（如删除所有空白页）

四、性能测试：三大库横向对比

五、避坑指南：常见问题解决方案

问题 1：删除页面后文件大小未减小

问题 2：加密 PDF 无法操作

问题 3：删除后页面顺序错乱

六、未来趋势：PDF 处理技术发展

结语：选择最适合你的武器

更多推荐文章

相关免费在线工具

Python 操作 PDF 页面详解：删除指定页的完整方案

引言：PDF 页面操作的现实需求

一、技术选型：三大主流库对比

1. PyPDF2：轻量级选手的经典选择

2. Spire.PDF for Python：企业级解决方案

3. PyMuPDF：性能怪兽的另类选择

二、核心实现：删除指定页的代码实战

方案 1：PyPDF2 基础实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

方案 2：Spire.PDF 企业级实现

方案 3：PyMuPDF 高性能实现

三、进阶场景：复杂删除需求解决方案

场景 1：批量删除多个不连续页面

场景 2：删除连续页面范围

场景 3：条件删除（如删除所有空白页）

四、性能测试：三大库横向对比

五、避坑指南：常见问题解决方案

问题 1：删除页面后文件大小未减小

问题 2：加密 PDF 无法操作

问题 3：删除后页面顺序错乱

六、未来趋势：PDF 处理技术发展

结语：选择最适合你的武器

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具