LangChain PyPDFLoader 实战：PDF 加载、分块与图片 OCR 提取 | 极客日志

PythonAI算法

LangChain PyPDFLoader 实战：PDF 加载、分块与图片 OCR 提取

综述由AI生成本文详解 LangChain 中 PyPDFLoader 的实战应用，涵盖 PDF 文本加载、元数据管理、指定页码抽取及全文合并方法。针对扫描版 PDF 和图片内容，介绍了集成 RapidOCR 进行 OCR 识别的方案，并提供了加密 PDF 解密、文本分块优化及批量文件夹处理的代码示例。通过具体案例演示如何规避加载失败、分块截断等常见问题，帮助开发者高效构建 RAG 系统的文档预处理环节。

路由之心发布于 2026/4/11更新于 2026/5/2215 浏览

LangChain PyPDFLoader 实战：PDF 加载、分块与图片 OCR 提取

在 AI 大模型学习系列中，我们已经掌握了 LangChain 的核心概念、Prompt 工程以及链（Chain）等基础能力。而在 RAG（检索增强生成）系统 中，'文档加载（Document Loading）'是数据输入的第一步——只有先把 PDF、Word 等外部文档准确提取成文本，才能后续构建向量数据库、实现精准检索。

本文作为 RAG 链路的关键实战篇，将聚焦 LangChain 中最常用的 PDF 加载器 PyPDFLoader，从基础使用到图片提取，再到问题排查，带你一站式掌握 PDF 文档处理能力。

PyPDFLoader 运行效果演示

为什么需要 PyPDFLoader？

在 RAG 系统中，PDF 是最常见的'外部知识库'格式（如技术文档、论文、报告等）。但 PDF 的文本存储结构特殊，直接读取会出现'乱码''分页丢失'等问题。LangChain 的 PyPDFLoader 正是为解决这个问题而生。

它的核心价值在于：

自动按 PDF 页码拆分文档，返回 Document 对象列表（每个对象对应 1 页）；
保留元数据（如页码、文件路径），方便后续检索时定位'文本来源'；
支持按需加载指定页码，避免大文件加载耗时；
可结合 OCR 工具提取扫描版 PDF 或图片中的文本，覆盖更多场景。

PyPDFLoader 基础：安装与核心能力

安装依赖库

PyPDFLoader 依赖 pypdf 库实现 PDF 解析，需先安装（建议指定版本避免兼容性问题）：

# 安装 pypdf（推荐 3.0.0+ 版本）
pip install pypdf>=3.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装 LangChain 社区版（包含 PyPDFLoader）
pip install langchain-community -i https://pypi.tuna.tsinghua.edu.cn/simple

核心能力说明

能力	描述	适用场景
按页拆分	将多页 PDF 拆分为单个 `Document` 对象，每个对象包含 `page_content`（文本）和 `metadata`（元数据）	需按页码追溯文本来源的场景（如'引用第 5 页的内容'）
元数据保留	自动记录 `source`（文件路径）、`page`（页码，从 1 开始）	RAG 检索时显示'答案来自 xxx 文件第 x 页'
按需加载	支持指定页码范围加载，无需加载整个文件	大文件（如 1000 页 PDF）仅需提取部分页面

PyPDFLoader 实战：3 类核心场景

以下实战均基于'本地 PDF 文件'（路径示例：data/test.pdf），建议先创建 data 文件夹并放入测试 PDF，避免路径错误。

场景 1：加载整个 PDF 并查看基础信息

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from langchain_community.document_loaders import PyPDFLoader

# 1. 初始化加载器（传入 PDF 文件路径，支持相对路径/绝对路径）
# 相对路径：相对于当前代码文件的路径（如 data/test.pdf）
# 绝对路径：如 "C:/docs/test.pdf"（Windows）或 "/home/user/docs/test.pdf"（Linux）
loader = PyPDFLoader("data/test.pdf")

# 2. 加载所有页面（返回 Document 对象列表）
pages = loader.load()

# 3. 查看基础信息
print(f"PDF 总页数：{len(pages)}")  # 输出总页数
print(f"\n第一页元数据：{pages[0].metadata}")  # 元数据（source、page 等）
print(f"\n第一页前 200 字符预览：\n{pages[0].page_content[:200]}...")  # 文本预览

PDF 总页数：10
第一页元数据：{'source': 'data/test.pdf', 'page': 1}
第一页前 200 字符预览：
LangChain PyPDFLoader 实战指南
1. 概述 PyPDFLoader 是 LangChain 社区版中用于解析 PDF 文件的核心加载器，支持按页拆分、元数据保留...

from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("data/test.pdf")
# 加载第 2-4 页（索引 1、2、3）
target_pages = loader.load([1, 2, 3])

# 验证结果
for idx, page in enumerate(target_pages):
    print(f"第{idx+2}页元数据：{page.metadata}")  # 页码应为 2、3、4
    print(f"第{idx+2}页前 100 字符：{page.page_content[:100]}...\n")

from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("data/test.pdf")
pages = loader.load()

# 合并所有页面文本（用两个换行符分隔页面，避免文本粘连）
full_text = "\n\n".join([page.page_content for page in pages])

# 查看合并结果
print(f"合并后全文总字符数：{len(full_text)}")
print(f"\n全文前 500 字符预览：\n{full_text[:500]}...")

# 合并时去除每页开头的重复页眉（示例：页眉为"LangChain 指南"）
full_text = "\n\n".join([page.page_content.replace("LangChain 指南", "") for page in pages])

原因	现象	解决方案
1. 文件是'扫描版 PDF'（本质是图片集合）	加载后 `page_content` 为空字符串，或只有乱码	用 OCR 工具提取图片中的文本（见第 5 章）
2. PDF 文件加密（需密码解密）	报错 `PdfReadError: File has not been decrypted`	1. 用 Adobe Acrobat 等工具手动解密；

from PyPDF2 import PdfReader, PdfWriter
from langchain_community.document_loaders import PyPDFLoader
import os

# 1. 解密 PDF 并保存为临时文件
def decrypt_pdf(input_path, output_path, password):
    reader = PdfReader(input_path)
    if reader.is_encrypted:
        reader.decrypt(password)  # 传入 PDF 密码
    # 保存解密后的文件
    writer = PdfWriter()
    for page in reader.pages:
        writer.add_page(page)
    with open(output_path, "wb") as f:
        writer.write(f)
    print(f"解密后的 PDF 已保存至：{output_path}")

# 2. 解密并加载
decrypt_pdf(
    input_path="data/encrypted_test.pdf",  # 加密 PDF 路径
    output_path="data/decrypted_test.pdf",  # 解密后保存路径
    password="123456"  # PDF 密码
)

# 3. 用 PyPDFLoader 加载解密后的文件
loader = PyPDFLoader("data/decrypted_test.pdf")
pages = loader.load()
print(f"解密后 PDF 总页数：{len(pages)}")

from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 1. 加载 PDF
loader = PyPDFLoader("data/test.pdf")
pages = loader.load()

# 2. 初始化文本分割器（核心参数说明）
text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", "."],  # 优先按段落（\n\n）、再按换行（\n）、最后按句号（.）分割
    chunk_size=500,  # 每个块的最大字符数（根据大模型上下文窗口调整，如 GPT-3.5 用 500-1000）
    chunk_overlap=50,  # 块之间的重叠字符数（避免上下文丢失，如前块结尾 50 字符与后块开头重叠）
    length_function=len  # 字符数计算方式（默认 len，即按字符数）
)

# 3. 执行分块
split_docs = text_splitter.split_documents(pages)

# 4. 查看分块结果
print(f"原始页面数：{len(pages)}")
print(f"分块后总块数：{len(split_docs)}")
print(f"\n第一个块内容：\n{split_docs[0].page_content}")
print(f"\n第一个块元数据（含页码）：{split_docs[0].metadata}")

特性	说明	优势
引擎	基于 ONNX Runtime（跨平台推理引擎）	速度快、资源占用低（比 Tesseract 快 3-5 倍）
语言支持	中文、英文、日文、韩文等 10+ 语言	适合处理中英混合的技术文档
模型体积	核心模型仅 5-10MB	无需下载大模型，安装即用
跨平台	支持 Windows、Linux、macOS、移动端	开发环境无限制

工具	引擎	速度	准确率	依赖项	适用场景
RapidOCR-ONNXRuntime	ONNX Runtime	⭐⭐⭐⭐	⭐⭐⭐	少（仅需 onnxruntime）	跨平台、轻量级部署、实时提取
Tesseract	自研引擎	⭐⭐	⭐⭐	多（需安装 Poppler、语言包）	开源免费、简单文本识别
EasyOCR	PyTorch	⭐⭐	⭐⭐⭐	多（需安装 PyTorch、CUDA）	复杂场景（如倾斜文本）
Microsoft Read API	云端引擎	⭐⭐⭐⭐	⭐⭐⭐⭐	无（需 API 密钥）	企业级、高并发需求

# 安装 rapidocr-onnxruntime（首次安装会自动下载小模型，耗时约 1-2 分钟）
pip install rapidocr-onnxruntime -i https://pypi.tuna.tsinghua.edu.cn/simple

from langchain_community.document_loaders import PyPDFLoader

# 关键：初始化时设置 extract_images=True，启用图片提取
loader = PyPDFLoader("data/pdf-img.pdf", extract_images=True)

# 加载页面（图片中的文本会自动嵌入到 page_content 中）
pages = loader.load()

# 查看结果（图片中的文本会跟在该页原有文本后）
print(f"总页数：{len(pages)}")
print(f"\n包含图片的页面内容（前 500 字符）：\n{pages[0].page_content[:500]}...")

from langchain_community.document_loaders import PyPDFLoader
import os

# 目标文件夹路径
pdf_folder = "docs/"

# 存储所有 PDF 的页面
all_pages = []

# 遍历文件夹中的所有文件
for filename in os.listdir(pdf_folder):
    # 仅处理后缀为.pdf 的文件
    if filename.lower().endswith(".pdf"):
        # 拼接完整文件路径
        pdf_path = os.path.join(pdf_folder, filename)
        try:
            # 加载当前 PDF
            loader = PyPDFLoader(pdf_path)
            pages = loader.load()
            all_pages.extend(pages)
            print(f"成功加载：{filename}（{len(pages)}页）")
        except Exception as e:
            # 捕获异常，避免单个文件错误导致整个批量任务失败
            print(f"加载{filename}失败：{str(e)}")

# 查看批量加载结果
print(f"\n批量加载完成：共加载{len(all_pages)}页 PDF")

# 合并所有文本（可选）
full_text = "\n\n".join([page.page_content for page in all_pages])
print(f"所有 PDF 合并后总字符数：{len(full_text)}")

from concurrent.futures import ThreadPoolExecutor

def load_single_pdf(pdf_path):
    """单个 PDF 加载函数（供多线程调用）"""
    try:
        loader = PyPDFLoader(pdf_path)
        pages = loader.load()
        print(f"成功加载：{os.path.basename(pdf_path)}（{len(pages)}页）")
        return pages
    except Exception as e:
        print(f"加载{os.path.basename(pdf_path)}失败：{str(e)}")
        return []

# 多线程批量加载（设置最大线程数为 4，避免资源占用过高）
with ThreadPoolExecutor(max_workers=4) as executor:
    # 获取所有 PDF 路径
    pdf_paths = [os.path.join(pdf_folder, f) for f in os.listdir(pdf_folder) if f.lower().endswith(".pdf")]
    # 批量执行
    results = executor.map(load_single_pdf, pdf_paths)
    # 合并结果
    all_pages = [page for result in results for page in result]

LangChain PyPDFLoader 实战：PDF 加载、分块与图片 OCR 提取

LangChain PyPDFLoader 实战：PDF 加载、分块与图片 OCR 提取

为什么需要 PyPDFLoader？

PyPDFLoader 基础：安装与核心能力

安装依赖库

核心能力说明

PyPDFLoader 实战：3 类核心场景

场景 1：加载整个 PDF 并查看基础信息

更多推荐文章

相关免费在线工具

场景 2：按需加载指定页码

场景 3：合并所有页面为单个文本

常见问题与解决方案（避坑指南）

问题 1：PDF 无法加载或内容为空

常见原因与解决步骤

加密 PDF 解密示例（用 PyPDF2）

问题 2：文本分块不理想（如句子被截断）

解决方案：自定义分块参数

进阶：PDF 图片提取（含 OCR 实战）

工具介绍：RapidOCR-ONNXRuntime

与主流 OCR 工具对比

实战：提取 PDF 中的图片文本

步骤 1：安装依赖

步骤 2：代码实现（图片文本提取）

高级技巧：批量处理文件夹中的所有 PDF

总结与下一步

本文核心收获

更多推荐文章

相关免费在线工具

LangChain PyPDFLoader 实战：PDF 加载、分块与图片 OCR 提取

LangChain PyPDFLoader 实战：PDF 加载、分块与图片 OCR 提取

为什么需要 PyPDFLoader？

PyPDFLoader 基础：安装与核心能力

安装依赖库

核心能力说明

PyPDFLoader 实战：3 类核心场景

场景 1：加载整个 PDF 并查看基础信息

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

场景 2：按需加载指定页码

场景 3：合并所有页面为单个文本

常见问题与解决方案（避坑指南）

问题 1：PDF 无法加载或内容为空

常见原因与解决步骤

加密 PDF 解密示例（用 PyPDF2）

问题 2：文本分块不理想（如句子被截断）

解决方案：自定义分块参数

进阶：PDF 图片提取（含 OCR 实战）

工具介绍：RapidOCR-ONNXRuntime

与主流 OCR 工具对比

实战：提取 PDF 中的图片文本

步骤 1：安装依赖

步骤 2：代码实现（图片文本提取）

高级技巧：批量处理文件夹中的所有 PDF

总结与下一步

本文核心收获

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具