跳到主要内容RAG 系统链路解析与 Document Loaders 多案例实战 | 极客日志PythonAI算法
RAG 系统链路解析与 Document Loaders 多案例实战
在之前的 AI 大模型系列中,我们从基础概念逐步深入到实战,并在前期初步提及 RAG 技术的重要性。 RAG(Retrieval-Augmented Generation,检索增强生成)是解决大模型'幻觉'的核心方案——通过'检索外部知识'为 LLM 提供精准上下文,让生成结果更可靠。但 RAG 系统并非单一技术,而是一条完整的'数据处理→存储→检索→生成'链路,其中**数据加载(Document…
咸鱼开飞机21K 浏览 在之前的 AI 大模型系列中,我们从基础概念逐步深入到实战,并在前期初步提及 RAG 技术的重要性。
RAG(Retrieval-Augmented Generation,检索增强生成)是解决大模型'幻觉'的核心方案——通过'检索外部知识'为 LLM 提供精准上下文,让生成结果更可靠。但 RAG 系统并非单一技术,而是一条完整的'数据处理→存储→检索→生成'链路,其中数据加载(Document Loaders)是整个链路的'入口' ——没有高质量的原始数据加载,后续的向量化、检索都无从谈起。
本文将聚焦 RAG 系统的完整链路解析,并通过多案例实战,带你掌握 LangChain 中 Document Loaders 的核心用法,为后续 RAG 项目打下坚实基础。

RAG 系统链路解析与 Document Loaders 多案例实战
一、RAG 系统核心链路:从数据到生成的完整流程
RAG 的本质是'让 LLM 带着外部知识回答问题',其核心链路可拆解为数据准备'和'检索生成'两大阶段,每个阶段包含多个关键技术环节。理解这条链路,是后续实战的前提。
1.1 RAG 数据流流水线示意图
原始数据需要经过一系列处理,才能最终为 LLM 提供有效支撑,完整流程如下:

1.2 RAG 关键技术环节解析
链路中每个环节都有明确的职责,缺一不可:
- 文档加载器(Document Loaders):本文核心,负责将不同来源、不同格式的原始数据(如本地 PDF、在线网页、MySQL 数据库)转为 LangChain 统一的
Document 对象,解决'数据入口不统一'问题。
- 文档转换器(Document Transformers):对
Document 进行清洗(去除乱码、空白行)和分块(如按 500 字符/块分割),避免长文本向量化时的语义失真。
- 文本嵌入模型(Embedding Models):如 OpenAI 的
text-embedding-3-small、开源的 BERT,负责将文本转为高维向量(如 1536 维),让计算机能通过'向量距离'判断文本相似度。
- 向量存储(Vector Stores):如 Pinecone、Chroma、Milvus,专门存储文本向量,支持快速相似性检索(毫秒级找到与查询最像的文本)。
- 检索器(Retrievers):定义检索逻辑(如'相似性检索 Top 3''关键词过滤 + 相似性检索'),从向量库中抓取与用户查询匹配的上下文。
二、RAG 与 LLM 交互架构:为什么 RAG 能解决'幻觉'?
传统 LLM 直接生成回答时,依赖的是训练时的'记忆',但存在'知识过时''虚构信息'问题;而 RAG 通过'检索 + 生成'的交互模式,让 LLM'带着参考资料答题',从根本上减少幻觉。
2.1 RAG 与 LLM 交互架构图

2.2 架构核心优势
- 知识实时更新:无需重新训练 LLM,只需更新向量库中的数据(如新增 2024 年 LangChain 新特性),即可让 LLM 获取最新知识。
- 结果可追溯:生成的回答可对应到具体的原始数据(如'该结论来自 XX PDF 第 5 页'),便于验证准确性。
- 降低训练成本:无需训练千亿参数的大模型,用中小模型(如 7B 的 Llama3)+ RAG,即可实现高精度回答。
三、Document Loaders 核心概念:LangChain 如何统一数据入口?
LangChain 为了解决'不同数据源适配'问题,设计了统一的加载器接口,无论原始数据格式如何,最终都能转为 Document 对象。
3.1 LangChain Loaders 的核心设计:BaseLoader 接口
LangChain 所有加载器都继承自抽象类 BaseLoader,确保统一的调用方式。核心接口定义如下(简化版):
from abc import ABC, abstractmethod
from typing import Iterable
from langchain_core.documents import Document
class BaseLoader(ABC):
@abstractmethod
def lazy_load(self) -> Iterable[Document]:
pass
def load(self) -> list[Document]:
return list(self.lazy_load())
load() 方法:最常用,直接返回所有 Document 组成的列表,适合小文件。
lazy_load() 方法:生成器模式,逐个返回 Document,适合大文件(如 1000 页的 PDF),避免一次性加载到内存导致 OOM。
3.2 Document 对象:数据的'统一载体'
所有 Loader 最终输出的都是 Document 对象,其结构非常简单,包含两个核心字段:
class Document(BaseMedia):
page_content: str
metadata: dict
type: Literal["Document"] = "Document"
Document(
page_content="LangChain Loaders 支持 PDF、CSV、网页等多种数据源",
metadata={"source": "data/rag_intro.pdf", "page": 3}
)
3.3 Loaders 分类:覆盖所有常见数据源
LangChain 的 langchain_community.document_loaders 模块提供了上百种 Loader,按数据源类型可分为三大类:
| 分类 | Loader 类型 | 功能描述 | 适用场景 |
|---|
| 文件加载器 | TextLoader | 加载纯文本文件(.txt) | 本地日志文件、纯文本笔记 |
| PyPDFLoader | 加载 PDF 文件,支持提取页码元数据 | 技术文档、论文 |
| Docx2txtLoader | 加载 Word 文档(.docx) | 工作报告、需求文档 |
| CSVLoader | 加载 CSV 文件,按行生成 Document | 数据报表、用户列表 |
| 网页加载器 | WebBaseLoader | 抓取静态网页文本(无需 JS 渲染) | 博客文章、百科页面 |
| SeleniumURLLoader | 加载动态网页(需 JS 渲染,如 Vue/React 页面) | 电商商品页、登录后页面 |
| 数据库加载器 | SQLDatabaseLoader | 执行 SQL 查询,加载结果为 Document | MySQL、PostgreSQL 等关系库 |
| MongoDBLoader | 从 MongoDB 集合中加载文档 | NoSQL 数据库数据 |
四、Document Loaders 多案例实战:从理论到代码
光说不练假把式,下面通过 3 个最常用的 Loader 案例(TextLoader、CSVLoader、JSONLoader),带你掌握实战技巧,所有代码可直接复制运行。
前置准备:安装依赖
首先安装 LangChain 及 Loader 所需的额外依赖:
pip install langchain langchain-community
案例 1:TextLoader——加载纯文本文件
纯文本文件(.txt)是最基础的数据源,TextLoader 支持自定义编码,解决中文乱码问题。
实战代码
from langchain_community.document_loaders import TextLoader
loader = TextLoader(
file_path="data/test.txt",
encoding="utf-8",
autodetect_encoding=True
)
documents = loader.load()
print(f"加载的 Document 数量:{len(documents)}")
print(f"\n前 100 个字符内容:{documents[0].page_content[:100]}")
print(f"\n元数据:{documents[0].metadata}")
关键说明
- 中文乱码解决:如果
test.txt 是 GBK 编码,直接用 encoding="utf-8" 会乱码,开启 autodetect_encoding=True 后,Loader 会自动识别编码。
- 大文本处理:如果
test.txt 有 10 万行,用 lazy_load() 逐个获取 Document:
for doc in loader.lazy_load():
print(doc.page_content[:50])
案例 2:CSVLoader——加载 Excel 表格数据
CSV 文件(.csv)常用于存储结构化数据(如销售报表),CSVLoader 支持按行生成 Document,且可指定字段名。
实战场景
假设 data/sales.csv 文件内容如下(销售数据):
产品名称,销售数量,客户名称
手机,100,张三
电脑,50,李四
平板,30,王五
实战代码
from langchain_community.document_loaders import CSVLoader
loader = CSVLoader(
file_path="data/sales.csv",
csv_args={
"delimiter": ",",
"fieldnames": ["产品名称", "销售数量", "客户名称"]
},
source_column="产品名称"
)
documents = loader.load()
print(f"加载的 Document 数量:{len(documents)}")
print(f"\n第 1 条数据内容:{documents[0].page_content}")
print(f"\n第 1 条数据元数据:{documents[0].metadata}")
关键说明
- 自定义分隔符:如果 CSV 是用制表符(\t)分隔,需将
delimiter 设为 "\t"。
- 字段筛选:如果只需加载'产品名称'和'销售数量',可在
csv_args 中添加 "usecols": ["产品名称", "销售数量"]。
案例 3:JSONLoader——加载 JSON 文件(复杂结构解析)
JSON 文件常用于存储半结构化数据(如接口返回、日志),JSONLoader 的核心是通过 jq_schema 指定数据提取规则,支持复杂结构解析。
实战场景
假设 data/articles.json 文件内容如下(文章列表):
{
"status": "success",
"data": {
"articles": [
{"id": 1, "title": "RAG 系统链路解析", "content": "RAG 包含加载、预处理、向量化、存储、检索五大环节", "author": "工藤学编程", "date": "2024-05-20"},
{"id": 2, "title": "Document Loaders 实战", "content": "TextLoader 适合纯文本,CSVLoader 适合表格数据", "author": "工藤学编程", "date": "2024-05-21"}
]
}
}
实战代码
from langchain_community.document_loaders import JSONLoader
loader = JSONLoader(
file_path="data/articles.json",
jq_schema=".data.articles[]",
content_key="content",
metadata_func=lambda record: {
"article_id": record["id"],
"title": record["title"],
"author": record["author"],
"date": record["date"]
}
)
documents = loader.load()
print(f"加载的 Document 数量:{len(documents)}")
print(f"\n第 1 篇文章内容:{documents[0].page_content}")
print(f"\n第 1 篇文章元数据:{documents[0].metadata}")
关键:jq_schema 语法常用模式
jq_schema 是 JSONLoader 的核心,用于定义'从 JSON 中提取哪些数据',常用语法如下:
| 需求场景 | jq_schema 示例 | 说明 |
|---|
| 提取根级数组 | .[] | 适合 JSON 本身是数组(如 [{"id":1},{"id":2}]) |
| 提取嵌套数组 | .data.articles[] | 提取深层数组元素(如本文案例) |
| 条件过滤 | `.data.articles[] | select(.id > 1)` |
| 多字段合并 | `.data.articles[] | {c: .content, t: .title}` |
五、Loaders 实战常见问题与解决方案
实战中难免遇到各种问题,这里整理 3 个高频问题及解决方案:
| 常见问题 | 原因分析 | 解决方案 |
|---|
| 中文乱码(如'��') | 文本编码与 Loader 指定的 encoding 不匹配 | 1. 开启 autodetect_encoding=True;2. 手动指定编码(如 encoding="gbk") |
| JSONLoader 报错'jq: error' | jq_schema 语法错误,或 JSON 结构与预期不符 | 1. 用 jq 在线验证工具测试语法;2. 打印原始 JSON 确认结构 |
六、总结
本文我们掌握了 RAG 系统的核心链路,以及作为'数据入口'的 Document Loaders 实战技巧。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online