Python 一键拆分 PDF：按章节建文件夹并导出单页（支持书签与正文识别） | 极客日志

PythonAI算法

Python 一键拆分 PDF：按章节建文件夹并导出单页（支持书签与正文识别）

该工具基于 Python 实现 PDF 按章节自动拆分功能。优先通过 PDF 书签识别章节标题，若无书签则扫描正文文本匹配正则表达式。支持按章节创建文件夹，导出整章 PDF 及单页 PDF。适用于电子书处理、AI 文档分析等场景。需安装 pypdf 库，支持 Windows 系统。

魔尊发布于 2026/3/15更新于 2026/7/2447 浏览

Python 一键拆分 PDF：按章节建文件夹并导出单页（支持书签与正文识别）

工具设计背景

经常需要将电子书交给 AI 做总结或问答，但很多 PDF 体积大、页数多。如果按章节拆开再喂给 AI，手动操作非常耗时。

本工具实现了以下功能：

自动识别'第 X 章'标题（优先书签，没书签再扫正文）
按章节自动创建文件夹（文件夹命名带序号，方便排序）
支持整章导出 + 单页导出（每页单独 PDF，便于上传/AI 处理）

输出结构示例

拆分后的输出结构如下：

输出目录
- 01_第 1 章_xxx/
  - 01_第 1 章_xxx.pdf（整章）
  - p0001.pdf p0002.pdf ...（单页）
- 02_第 2 章_xxx/
  - 02_第 2 章_xxx.pdf
  - p00xx.pdf ...

既保留'整章'，也能拿到'每一页'。

使用方法

将脚本直接运行即可。

3.1 选择 PDF 文件

点击按钮 「1. 请选择你的 PDF 文件」，选中要处理的 PDF。

3.2 选择输出位置并开始拆分

点击 「2. 请选择输出目录并开始拆分」，选择一个输出文件夹，工具就会开始处理，并在下方日志区域输出进度。

效果展示

环境与依赖

Windows 10/11 均可
Python 3.x（建议 3.8+）
依赖库：pypdf

安装依赖：

pip install pypdf

**注意：**如果 PDF 是扫描版图片（没有可提取的文字），正文识别可能会失败，这种情况需要先 OCR，否则工具无法'读到章节标题'。

核心原理

为了让工具对不同 PDF 更稳定，设计了两种识别策略：

方案一：从 PDF 书签（outline）识别章节

如果 PDF 自带书签（目录），直接读取书签并找出匹配 '第 X 章' 的标题，然后拿到对应页码作为章节起点。

**优点：**速度快、准确率高。

方案二：扫描正文文本猜章节起始页

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# -*- coding: utf-8 -*-
import re
from pathlib import Path
from pypdf import PdfReader, PdfWriter
import tkinter as tk
from tkinter import filedialog, messagebox

# ================= 配置区域 =================
# 章节标题匹配规则（适合：第 1 章 / 第 1 章 / 第一章 / 第十四章 等）
CHAPTER_PATTERN = re.compile(r"第\s*[一二三四五六七八九十百千 0-9]+\s*章[^\n\r]*")

# 是否额外按'页'拆成单页 PDF
EXPORT_SINGLE_PAGES = True

# ==========================================
# GUI 全局对象占位
root = None
log_text = None


def sanitize_filename(name: str) -> str:
    """
    去掉 Windows 不支持的文件名字符。
    """
    return re.sub(r'[\\/:*?"<>|]', "_", name)


# ---------- 方案一：优先从 PDF 书签 (outline) 中找章节 ----------
def find_chapters_from_outline(reader: PdfReader):
    """
    从 PDF 书签 (outline) 中找出章节：
    - 遍历所有书签
    - 标题里匹配 CHAPTER_PATTERN（第 X 章……）
    - 获取对应页码
    返回：[{title: '第 1 章 xxx', start: 0}, ...]
    """
    chapters = []
    # 兼容不同版本的 pypdf：有的叫 outline，有的叫 outlines
    try:
        outlines = reader.outline
    except Exception:
        try:
            outlines = reader.outlines
        except Exception:
            outlines = None

    if not outlines:
        return []

    def walk(items):
        for item in items:
            # 子列表：继续递归
            if isinstance(item, list):
                walk(item)
            else:
                # 尝试拿书签标题
                try:
                    title = item.title
                except AttributeError:
                    title = str(item)
                if not isinstance(title, str):
                    title = str(title)

                # 标题里不含'第 X 章'就跳过
                if not CHAPTER_PATTERN.search(title):
                    continue

                # 拿到书签指向的页码
                try:
                    page_num = reader.get_destination_page_number(item)
                except Exception:
                    continue
                chapters.append({"title": title.strip(), "start": page_num})

    walk(outlines)

    # 去重、排序（同一页只保留一个章节）
    unique = {}
    for ch in chapters:
        if ch["start"] not in unique:
            unique[ch["start"]] = ch
    chapters = sorted(unique.values(), key=lambda c: c["start"])
    return chapters


# ---------- 方案二：从正文文本中猜章节（备用） ----------
def find_chapters_from_text(reader: PdfReader):
    """
    扫描整个 PDF 正文，猜每一章的'起始页'以及章节标题。
    规则大致是：
    - 排除'目录/contents'页面
    - 一页内允许有多个'第 X 章'，逐个判断
    - 只要某个匹配出现在页面较前面，且所在行不像目录行 (标题 + ...... + 页码) 就认为是章节开始
    返回：[{title: '第 1 章 xxx', start: 0}, ...]
    """
    chapters = []
    num_pages = len(reader.pages)
    for i in range(num_pages):
        page = reader.pages[i]
        text = page.extract_text() or ""
        if not text.strip():
            continue

        # 跳过目录页（粗略判断即可）
        head = text[:100]
        if "目录" in head or "Contents" in head or "CONTENTS" in head:
            continue

        # 遍历此页所有匹配 "第 X 章"
        for m in CHAPTER_PATTERN.finditer(text):
            # 要求标题出现在页面比较靠前的位置
            if m.start() > 400:
                # 这个阈值可以按需要微调
                continue

            # 找到这一行的文本内容
            lines = text.splitlines()
            line_of_match = ""
            char_pos = 0
            for line in lines:
                next_pos = char_pos + len(line) + 1
                # 粗略算上换行
                if m.start() < next_pos:
                    line_of_match = line
                    break
                char_pos = next_pos

            # 目录行一般是：标题 + 一串点 + 页码
            # 例如：第 1 章 人际关系的构成..................1
            if re.search(r"[\.·…]{3,}\s*\d+\s*$", line_of_match):
                # 像目录的行，忽略
                continue

            title = m.group(0).strip()

            # 同一页只认一个章节起点
            if not any(ch["start"] == i for ch in chapters):
                chapters.append({"title": title, "start": i})
                break

    return chapters


# ---------- 包一层：带 logger 的 find_chapters ----------
def find_chapters(reader: PdfReader, logger=print):
    chapters = find_chapters_from_outline(reader)
    if chapters:
        logger("✅ 使用 PDF 书签识别章节")
        return chapters
    logger("⚠️ 此 PDF 没有可用书签，改用正文文本识别章节")
    chapters = find_chapters_from_text(reader)
    return chapters


def fill_chapter_ranges(chapters, num_pages):
    """
    根据 start 页自动计算每章的 end 页。
    修改 chapters 列表，增加 end 字段。
    """
    for idx, ch in enumerate(chapters):
        start = ch["start"]
        if idx < len(chapters) - 1:
            end = chapters[idx + 1]["start"] - 1
        else:
            end = num_pages - 1
        ch["end"] = end
    return chapters


def split_pdf_by_chapters(pdf_path, output_root, logger=None):
    """
    真正拆分 PDF 的函数，所有信息通过 logger 输出到日志区域
    """
    if logger is None:
        logger = print

    pdf_path = Path(pdf_path)
    output_root = Path(output_root)

    if not pdf_path.exists():
        msg = f"PDF 文件不存在：{pdf_path}"
        logger(msg)
        raise FileNotFoundError(msg)

    reader = PdfReader(str(pdf_path))
    num_pages = len(reader.pages)
    book_name = pdf_path.name
    logger(f"开始处理：{book_name}")
    logger(f"总页数：{num_pages}")

    # 1. 找章节
    chapters = find_chapters(reader, logger=logger)
    if not chapters:
        msg = "未识别到任何章节标题，请检查：PDF 是否有书签/正文是否能提取文字/正则是否合适。"
        logger(msg)
        raise ValueError(msg)

    logger(f"共识别到 {len(chapters)} 章：")
    for idx, ch in enumerate(chapters, start=1):
        logger(f" 第{idx}章 → {ch['title']}（起始页：{ch['start']+1}）")

    # 2. 填充每章的结束页
    chapters = fill_chapter_ranges(chapters, num_pages)

    # 3. 创建输出根目录
    output_root.mkdir(parents=True, exist_ok=True)
    logger(f"输出目录：{output_root}")

    # 4. 按章节导出
    for idx, ch in enumerate(chapters, start=1):
        title = ch["title"]
        start_page = ch["start"]  # 0-based
        end_page = ch["end"]      # 0-based
        page_count = end_page - start_page + 1
        safe_title = sanitize_filename(title)
        chapter_dir = output_root / f"{idx:02d}_{safe_title}"
        chapter_dir.mkdir(parents=True, exist_ok=True)

        logger("")
        logger(f"==== 处理章节 {idx}: {title} ====")
        logger(f"页码范围：{start_page + 1} - {end_page + 1}（共 {page_count} 页）")
        logger(f"章节输出目录：{chapter_dir}")

        # 4.1 导出'整章一个 PDF'
        chapter_writer = PdfWriter()
        for p in range(start_page, end_page + 1):
            chapter_writer.add_page(reader.pages[p])
        chapter_pdf_path = chapter_dir / f"{idx:02d}_{safe_title}.pdf"
        with open(chapter_pdf_path, "wb") as f:
            chapter_writer.write(f)
        logger(f" ✅ 已生成整章 PDF: {chapter_pdf_path.name}")

        # 4.2 可选：每一页单独导出
        if EXPORT_SINGLE_PAGES:
            for p in range(start_page, end_page + 1):
                writer = PdfWriter()
                writer.add_page(reader.pages[p])
                # 页码用 1 开始，且补零对齐，例如 p0001.pdf
                page_label = f"p{p + 1:04d}.pdf"
                single_page_path = chapter_dir / page_label
                with open(single_page_path, "wb") as f:
                    writer.write(f)
            logger(" ✅ 已生成单页 PDF 文件（按页命名）")
        logger("")
    logger("🎉 拆分完成！")


# ========= GUI 部分（两个按钮 + 日志框） =========
selected_pdf_file = ""
selected_output_dir = ""


def append_log(msg: str):
    """写日志到 Text，并自动滚动"""
    if log_text is None:
        print(msg)
        return
    log_text.config(state="normal")
    log_text.insert(tk.END, msg + "\n")
    log_text.see(tk.END)
    log_text.config(state="disabled")

    # 刷新一下界面，让日志滚动更及时
    if root is not None:
        root.update_idletasks()


def choose_pdf():
    """按钮 1：选择 PDF 文件"""
    global selected_pdf_file
    path = filedialog.askopenfilename(
        title="请选择 PDF 文件",
        filetypes=[("PDF 文件", "*.pdf"), ("所有文件", "*.*")]
    )
    if path:
        selected_pdf_file = path
        label_pdf.config(text=f"已选择 PDF：{path}")
        append_log(f"已选择 PDF 文件：{path}")


def choose_output_and_run():
    """按钮 2：选择输出目录并开始拆分"""
    global selected_output_dir, selected_pdf_file
    if not selected_pdf_file:
        messagebox.showwarning("提示", "请先选择 PDF 文件！")
        return
    path = filedialog.askdirectory(title="请选择输出目录")
    if not path:
        return
    selected_output_dir = path
    label_output.config(text=f"输出目录：{path}")
    append_log("")
    append_log(f"输出目录设置为：{path}")
    append_log("开始拆分，请稍候...\n")

    # 清理一下旧的错误提示
    try:
        split_pdf_by_chapters(selected_pdf_file, selected_output_dir, logger=append_log)
        messagebox.showinfo("完成", "拆分完成！\n请到输出目录查看各章节文件夹。")
    except Exception as e:
        append_log(f"❌ 出错：{e}")
        messagebox.showerror("错误", f"处理过程中出现错误：\n{e}")


if __name__ == "__main__":
    # 创建窗口
    root = tk.Tk()
    root.title("PDF 章节拆分工具")
    root.geometry("400x400")
    root.resizable(False, False)

    # 上半部分：按钮区域
    btn_frame = tk.Frame(root)
    btn_frame.pack(padx=10, pady=10, fill="x")

    # 按钮 1：选择 PDF
    btn_pdf = tk.Button(btn_frame, text="1. 请选择你的 PDF 文件", command=choose_pdf)
    btn_pdf.pack(fill="x")
    label_pdf = tk.Label(btn_frame, text="尚未选择 PDF 文件", anchor="w")
    label_pdf.pack(fill="x", pady=(5, 10))

    # 按钮 2：选择输出目录 + 开始拆分
    btn_output = tk.Button(btn_frame, text="2. 请选择输出目录并开始拆分", command=choose_output_and_run)
    btn_output.pack(fill="x")
    label_output = tk.Label(btn_frame, text="尚未选择输出目录", anchor="w")
    label_output.pack(fill="x", pady=(5, 0))

    # 下半部分：日志输出区域（带滚动条）
    log_frame = tk.Frame(root)
    log_frame.pack(padx=10, pady=10, fill="both", expand=True)
    log_text = tk.Text(log_frame, state="disabled")
    log_text.pack(side="left", fill="both", expand=True)
    scrollbar = tk.Scrollbar(log_frame, command=log_text.yview)
    scrollbar.pack(side="right", fill="y")
    log_text.config(yscrollcommand=scrollbar.set)

    append_log("日志初始化完成。")
    append_log("提示：先选择 PDF 文件，再选择输出目录开始拆分。")
    root.mainloop()

Python 一键拆分 PDF：按章节建文件夹并导出单页（支持书签与正文识别）

Python 一键拆分 PDF：按章节建文件夹并导出单页（支持书签与正文识别）

工具设计背景

输出结构示例

使用方法

3.1 选择 PDF 文件

3.2 选择输出位置并开始拆分

环境与依赖

核心原理

方案一：从 PDF 书签（outline）识别章节

方案二：扫描正文文本猜章节起始页

更多推荐文章

相关免费在线工具

配置参数

常见问题

Q1：提示'未识别到任何章节标题'

Q2：为什么我的章节起始页不准？

Q3：输出文件名为什么会有下划线？

完整代码

更多推荐文章

相关免费在线工具

Python 一键拆分 PDF：按章节建文件夹并导出单页（支持书签与正文识别）

Python 一键拆分 PDF：按章节建文件夹并导出单页（支持书签与正文识别）

工具设计背景

输出结构示例

使用方法

3.1 选择 PDF 文件

3.2 选择输出位置并开始拆分

环境与依赖

核心原理

方案一：从 PDF 书签（outline）识别章节

方案二：扫描正文文本猜章节起始页

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

配置参数

常见问题

Q1：提示'未识别到任何章节标题'

Q2：为什么我的章节起始页不准？

Q3：输出文件名为什么会有下划线？

完整代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具