RAG 系统链路解析与 Document Loaders 多案例实战 | 极客日志

from abc import ABC, abstractmethod
from typing import Iterable
from langchain_core.documents import Document

class BaseLoader(ABC):
    # 懒加载（生成器模式，避免大文件加载时内存溢出）
    @abstractmethod
    def lazy_load(self) -> Iterable[Document]:
        pass

    # 直接加载（返回 Document 列表，内部调用 lazy_load）
    def load(self) -> list[Document]:
        return list(self.lazy_load())

class Document(BaseMedia):
    page_content: str  # 文本内容（如 PDF 某一页的文字、CSV 某一行的数据）
    metadata: dict     # 元数据（如来源路径、页码、行号，便于后续追溯）
    type: Literal["Document"] = "Document"

Document(
    page_content="LangChain Loaders 支持 PDF、CSV、网页等多种数据源",
    metadata={"source": "data/rag_intro.pdf", "page": 3}  # 来源 PDF 第 3 页
)

分类	Loader 类型	功能描述	适用场景
文件加载器	TextLoader	加载纯文本文件（.txt）	本地日志文件、纯文本笔记
	PyPDFLoader	加载 PDF 文件，支持提取页码元数据	技术文档、论文
	Docx2txtLoader	加载 Word 文档（.docx）	工作报告、需求文档
	CSVLoader	加载 CSV 文件，按行生成 Document	数据报表、用户列表
网页加载器	WebBaseLoader	抓取静态网页文本（无需 JS 渲染）	博客文章、百科页面
	SeleniumURLLoader	加载动态网页（需 JS 渲染，如 Vue/React 页面）	电商商品页、登录后页面
数据库加载器	SQLDatabaseLoader	执行 SQL 查询，加载结果为 Document	MySQL、PostgreSQL 等关系库
	MongoDBLoader	从 MongoDB 集合中加载文档	NoSQL 数据库数据

# 核心依赖：LangChain
pip install langchain langchain-community

# JSONLoader 需要 jq 命令行工具 (Linux: sudo apt install jq / Mac: brew install jq)

from langchain_community.document_loaders import TextLoader

# 1. 初始化 Loader（处理中文文件时，建议开启 autodetect_encoding）
loader = TextLoader(
    file_path="data/test.txt",      # 本地文本文件路径
    encoding="utf-8",               # 编码格式（默认 utf-8）
    autodetect_encoding=True        # 自动检测编码（解决中文乱码）
)

# 2. 加载数据（返回 Document 列表）
documents = loader.load()

# 3. 查看结果
print(f"加载的 Document 数量：{len(documents)}")  # 输出：1（纯文本文件默认 1 个 Document）
print(f"\n前 100 个字符内容：{documents[0].page_content[:100]}")
print(f"\n元数据：{documents[0].metadata}")       # 输出：{'source': 'data/test.txt'}

for doc in loader.lazy_load():
    print(doc.page_content[:50])  # 逐个打印每行前 50 字符

产品名称，销售数量，客户名称
手机，100，张三
电脑，50，李四
平板，30，王五

from langchain_community.document_loaders import CSVLoader

# 1. 初始化 Loader（指定 CSV 分隔符和字段名）
loader = CSVLoader(
    file_path="data/sales.csv",
    csv_args={
        "delimiter": ",",              # CSV 分隔符（默认逗号，Excel 导出的 CSV 常用）
        "fieldnames": ["产品名称", "销售数量", "客户名称"]  # 字段名（可选，默认用首行）
    },
    source_column="产品名称"             # 将'产品名称'作为 metadata 的 source 字段（便于追溯）
)

# 2. 加载数据
documents = loader.load()

# 3. 查看结果
print(f"加载的 Document 数量：{len(documents)}")  # 输出：3（3 行数据，不含表头）
print(f"\n第 1 条数据内容：{documents[0].page_content}")  # 输出：产品名称：手机，销售数量：100，客户名称：张三
print(f"\n第 1 条数据元数据：{documents[0].metadata}")  # 输出：{'source': '手机', 'row': 0}（row 为行号，从 0 开始）

{
  "status": "success",
  "data": {
    "articles": [
      {"id": 1, "title": "RAG 系统链路解析", "content": "RAG 包含加载、预处理、向量化、存储、检索五大环节", "author": "工藤学编程", "date": "2024-05-20"},
      {"id": 2, "title": "Document Loaders 实战", "content": "TextLoader 适合纯文本，CSVLoader 适合表格数据", "author": "工藤学编程", "date": "2024-05-21"}
    ]
  }
}

from langchain_community.document_loaders import JSONLoader

# 1. 初始化 Loader（核心：jq_schema 指定提取规则）
loader = JSONLoader(
    file_path="data/articles.json",
    jq_schema=".data.articles[]",           # 提取 data.articles 数组中的每个元素
    content_key="content",                  # 将'content'字段作为 Document 的 page_content
    metadata_func=lambda record: {
        "article_id": record["id"],
        "title": record["title"],
        "author": record["author"],
        "date": record["date"]
    }
)

# 2. 加载数据
documents = loader.load()

# 3. 查看结果
print(f"加载的 Document 数量：{len(documents)}")  # 输出：2（articles 数组有 2 个元素）
print(f"\n第 1 篇文章内容：{documents[0].page_content}")  # 输出：RAG 包含加载、预处理、向量化、存储、检索五大环节
print(f"\n第 1 篇文章元数据：{documents[0].metadata}")  # 输出：{'article_id': 1, 'title': 'RAG 系统链路解析', 'author': '工藤学编程', 'date': '2024-05-20'}

需求场景	jq_schema 示例	说明
提取根级数组	`.[]`	适合 JSON 本身是数组（如 [{"id":1},{"id":2}]）
提取嵌套数组	`.data.articles[]`	提取深层数组元素（如本文案例）
条件过滤	`.data.articles[]	select(.id > 1)`
多字段合并	`.data.articles[]	{c: .content, t: .title}`

常见问题	原因分析	解决方案
中文乱码（如'ï¿½ï¿½'）	文本编码与 Loader 指定的 encoding 不匹配	1. 开启 `autodetect_encoding=True`；2. 手动指定编码（如 `encoding="gbk"`）
JSONLoader 报错'jq: error'	jq_schema 语法错误，或 JSON 结构与预期不符	1. 用 jq 在线验证工具测试语法；2. 打印原始 JSON 确认结构