LLM 应用为何需要文本加载器及 LangChain 使用方法 | 极客日志

PythonAI

LLM 应用为何需要文本加载器及 LangChain 使用方法

综述由AI生成LangChain 中文本加载器的核心作用及具体使用方法。涵盖了 TXT、CSV、PDF、HTML、JSON、Markdown 等多种格式的加载方式，演示了 DirectoryLoader 的批量处理、多线程优化及错误处理机制。同时补充了文本切片策略、安全性考量及元数据管理等最佳实践，旨在帮助开发者高效完成非结构化数据的预处理，为构建 RAG 应用奠定基础。

云间运维发布于 2025/2/6更新于 2026/6/319 浏览

LLM 应用为何需要文本加载器及 LangChain 使用方法

在构建基于大语言模型（LLM）的应用，特别是检索增强生成（RAG）的本地应用时，数据源往往是多样化的。我们需要使用文本加载器来动态获取网页、文档或数据库中的数据。

在不同的应用场景中，需要使用不同的文本内容作为知识的载体。针对不同类型的文本，LangChain 提供了多种文本加载器（Document Loaders），帮助我们快速将非结构化数据转换为标准的 Document 对象，并进行切片处理，从而使开发者能将更多精力集中在核心业务逻辑的实现上。

什么是 Document Loader？

文档加载器的作用是将源数据加载为 Document 对象。一个 Document 包含两部分：

page_content：实际的文本内容。
metadata：关联的元数据（如来源文件路径、页码、作者等）。

例如，存在用于加载简单 .txt 文件的加载器，也有用于加载任何网页文本内容甚至 YouTube 视频转录的加载器。

文档加载器通常提供以下方法：

Load：从配置的源加载文档。
Load and Split：加载文档并使用传入的文本切片器进行分割。
Lazy load：可选实现，延迟将数据加载到内存中以节省资源。

加载 TXT 文档

对于简单的纯文本文件，可以使用 TextLoader。

from langchain_community.document_loaders import TextLoader

loader = TextLoader("./index.md")
docs = loader.load()

返回结果示例：

[
    {
        "page_content": "---\nsidebar_position: 0\n---\n# Document loaders...",
        "metadata": {"source": "../docs/docs/modules/data_connection/document_loaders/index.md"}
    }
]

CSV 数据处理

逗号分隔值（CSV）文件是常见的数据格式。每一行代表一条记录，字段由逗号分隔。

加载每行一个文档的 CSV 数据

默认情况下，CSVLoader 会将每一行作为一个独立的文档加载。

from langchain_community.document_loaders.csv_loader  CSVLoader

loader = CSVLoader(file_path=)
data = loader.load()

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

loader = CSVLoader(
    file_path="./example_data/mlb_teams_2012.csv", 
    csv_args={
        'delimiter': ',',
        'quotechar': '"',
        'fieldnames': ['MLB Team', 'Payroll in millions', 'Wins']
    }
)
data = loader.load()

loader = CSVLoader(
    file_path="./example_data/mlb_teams_2012.csv", 
    source_column="Team"
)
data = loader.load()

from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader('../', glob="**/*.md")
docs = loader.load()

import tqdm
loader = DirectoryLoader('../', glob='**/*.md', show_progress=True)
docs = loader.load()

loader = DirectoryLoader('../', glob="**/*.md", use_multithreading=True)
docs = loader.load()

from langchain_community.document_loaders import PythonLoader
loader = DirectoryLoader('../../../../../', glob="**/*.py", loader_cls=PythonLoader)
docs = loader.load()

# 方案 1：跳过错误
text_loader_kwargs={'autodetect_encoding': True}
loader = DirectoryLoader(
    path, 
    glob="**/*.txt", 
    loader_cls=TextLoader, 
    silent_errors=True,
    loader_kwargs=text_loader_kwargs
)
docs = loader.load()

from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()

from langchain_community.document_loaders import JSONLoader

loader = JSONLoader(
    file_path='./example_data/facebook_chat.json',
    jq_schema='.messages[].content',
    text_content=False
)
data = loader.load()

loader = JSONLoader(
    file_path='./example_data/facebook_chat_messages.jsonl',
    jq_schema='.content',
    json_lines=True
)
data = loader.load()

from langchain_community.document_loaders import UnstructuredMarkdownLoader

markdown_path = "../../../../../README.md"
loader = UnstructuredMarkdownLoader(markdown_path)
data = loader.load()

from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("example_data/layout-parser-paper.pdf")
pages = loader.load_and_split()  # 按页分割

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
split_docs = splitter.split_documents(docs)

LLM 应用为何需要文本加载器及 LangChain 使用方法

LLM 应用为何需要文本加载器及 LangChain 使用方法

什么是 Document Loader？

加载 TXT 文档

CSV 数据处理

加载每行一个文档的 CSV 数据

更多推荐文章

相关免费在线工具

自定义 CSV 解析参数

指定源列

目录批量加载

显示加载进度

多线程加速

指定加载器类

错误处理与编码

HTML 网页加载

JSON 数据加载

Markdown 文档加载

PDF 文档加载

最佳实践与注意事项

1. 文本切片策略

2. 安全性考虑

3. 性能优化

4. 元数据管理

总结

更多推荐文章

相关免费在线工具

LLM 应用为何需要文本加载器及 LangChain 使用方法

LLM 应用为何需要文本加载器及 LangChain 使用方法

什么是 Document Loader？

加载 TXT 文档

CSV 数据处理

加载每行一个文档的 CSV 数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

自定义 CSV 解析参数

指定源列

目录批量加载

显示加载进度

多线程加速

指定加载器类

错误处理与编码

HTML 网页加载

JSON 数据加载

Markdown 文档加载

PDF 文档加载

最佳实践与注意事项

1. 文本切片策略

2. 安全性考虑

3. 性能优化

4. 元数据管理

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具