LangChain 文档切分器详解：从字符到代码的文本分割策略 | 极客日志

PythonAI算法

LangChain 文档切分器详解：从字符到代码的文本分割策略

综述由AI生成LangChain 文档切分器用于将长文本分割为适合 LLM 上下文窗口的小块。主要包含 CharacterTextSplitter、RecursiveCharacterTextSplitter、TokenTextSplitter 等类型。通过设置分隔符、块大小和重叠参数，可优化检索增强生成（RAG）效果。详细解析了各切分器的参数配置、适用场景及代码实现，并对比了不同策略在保留语义完整性方面的差异，帮助开发者选择合适的文本处理方案。重点介绍了参数调优指南、常见误区与最佳实践，以及针对不同数据格式的选型建议。

佛系玩家发布于 2025/2/7更新于 2026/6/523 浏览

LangChain 文档切分器详解

在 LangChain 中，文档转换器是一种在将文档提供给其他 LangChain 组件之前对其进行处理的工具。通过清理、处理和转换文档，这些工具可确保 LLM 和其他 LangChain 组件以优化其性能的格式接收数据。

加载完文档之后还需要对文档进行转换。文本分割器专门用于将文本文档分割成更小、更易于管理的单元。理想情况下，这些块应该是句子或段落，以便理解文本中的上下文和关系。分割器考虑了 LLM 处理能力的局限性。通过创建更小的块，LLM 可以在其上下文窗口内更有效地分析信息。

主要文本分割器类型

CharacterTextSplitter
RecursiveCharacterTextSplitter
Split by tokens
Semantic Chunking
HTMLHeaderTextSplitter
MarkdownHeaderTextSplitter
RecursiveJsonSplitter
Split Code

CharacterTextSplitter

CharacterTextSplitter 根据指定的分隔符拆分文本，默认情况下分隔符设置为 \n\n。chunk_size 参数确定每个块的最大大小，并且只有在可行的情况下才会进行拆分。如果字符串以 n 个字符开头，后跟一个分隔符，然后在下一个分隔符之前有 m 个字符，则如果 chunk_size 小于 n + m + len(separator)，则第一个块的大小将为 n。

from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
    is_separator_regex=False,
)

参数说明：

separator：这是用于标识文本中自然断点的分隔符。在本例中，它被设置为 \n\n，这意味着分割器将寻找双换行符作为潜在的分割点。
chunk_size：此参数指定每个文本块的目标大小，以字符数表示。在这里，它被设置为 1000，这意味着分割器将旨在创建大约 1000 个字符长的文本块。
chunk_overlap：此参数允许连续块之间重叠字符。它被设置为 200，这意味着每个块将包含前一个块末尾的 200 个字符。这种重叠可以帮助确保在块之间的边界上不会丢失任何重要信息。
length_function：这是一个用于测量文本块长度的函数。在本例中，它被设置为内置的 len 函数，该函数计算字符串中的字符数。
is_separator_regex：此参数指定分隔符是否为正则表达式。它设置为 False，表示分隔符是一个纯字符串，而不是正则表达式模式。

使用示例：

from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("book.pdf")
pages = loader.load_and_split()

from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator=,
    chunk_size=,
    chunk_overlap=,
    length_function=,
    is_separator_regex=,
)

texts = text_splitter.split_text(pages[].page_content)
((texts))

(texts[])

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    separators=["\n\n", "\n", " ", ""],
    chunk_size=50,
    chunk_overlap=40,
    length_function=len,
    is_separator_regex=False,
)
texts = text_splitter.split_text(pages[0].page_content)
print(len(texts))
print(texts[2])

from langchain_text_splitters import TokenTextSplitter

text_splitter = TokenTextSplitter(chunk_size=10, chunk_overlap=1)
texts = text_splitter.split_text(pages[0].page_content)
print(texts[0])

from langchain_text_splitters import SpacyTextSplitter

text_splitter = SpacyTextSplitter(chunk_size=1000)
texts = text_splitter.split_text(pages[0].page_content)

from langchain_text_splitters import NLTKTextSplitter

text_splitter = NLTKTextSplitter(chunk_size=1000)
texts = text_splitter.split_text(pages[0].page_content)

from transformers import GPT2TokenizerFast

tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer, chunk_size=100, chunk_overlap=10
)
texts = text_splitter.split_text(pages[0].page_content)

from langchain_text_splitters import HTMLHeaderTextSplitter

html_string = """
<!DOCTYPE html>
<html>
<body>
    <div>
        <h1>Foo</h1>
        <p>Some intro text about Foo.</p>
        <div>
            <h2>Bar main section</h2>
            <p>Some intro text about Bar.</p>
            <h3>Bar subsection 1</h3>
            <p>Some text about the first subtopic of Bar.</p>
            <h3>Bar subsection 2</h3>
            <p>Some text about the second subtopic of Bar.</p>
        </div>
        <div>
            <h2>Baz</h2>
            <p>Some text about Baz</p>
        </div>
        <br>
        <p>Some concluding text about Foo</p>
    </div>
</body>
</html>
"""

headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
html_header_splits = html_splitter.split_text(html_string)
print(html_header_splits)

from langchain_text_splitters import MarkdownHeaderTextSplitter

markdown_document = "# Foo\n\n    ## Bar\n\nHi this is Jim\n\nHi this is Joe\n\n ### Boo \n\n Hi this is Lance \n\n ## Baz\n\n Hi this is Molly"

headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
md_header_splits = markdown_splitter.split_text(markdown_document)
print(md_header_splits)

import requests

# This is a large nested json object and will be loaded as a python dict
json_data = requests.get("https://api.smith.langchain.com/openapi.json").json()

from langchain_text_splitters import RecursiveJsonSplitter

splitter = RecursiveJsonSplitter(max_chunk_size=300)

# Recursively split json data - If you need to access/manipulate the smaller json chunks
json_chunks = splitter.split_json(json_data=json_data)
print(json_chunks)

from langchain_text_splitters import Language

[e.value for e in Language]
# ['cpp', 'go', 'java', 'kotlin', 'js', 'ts', 'php', 'proto', 'python', ...]

from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter,
)

PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

# Call the function
hello_world()
"""
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)
python_docs = python_splitter.create_documents([PYTHON_CODE])
print(python_docs)

JS_CODE = """
function helloWorld() {
  console.log("Hello, World!");
}

// Call the function
helloWorld();
"""
js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS, chunk_size=60, chunk_overlap=0
)
js_docs = js_splitter.create_documents([JS_CODE])
print(js_docs)

分割器类型	适用场景	优点	缺点
CharacterTextSplitter	纯文本，结构简单的文档	实现简单，速度快	可能切断句子
RecursiveCharacterTextSplitter	长文档，混合结构	自动适应层级，保持语义	配置较复杂
TokenTextSplitter	多语言，需精确控制 token 数	适配 LLM 上下文限制	依赖外部库
HTML/MarkdownSplitter	结构化网页或文档	保留结构元数据	仅适用于特定格式
RecursiveJsonSplitter	API 定义，配置文件	保持 JSON 结构完整性	仅限 JSON 数据

LangChain 文档切分器详解：从字符到代码的文本分割策略

LangChain 文档切分器详解

主要文本分割器类型

CharacterTextSplitter

更多推荐文章

相关免费在线工具

RecursiveCharacterTextSplitter

Split By Tokens

HTMLHeaderTextSplitter

MarkdownHeaderTextSplitter

RecursiveJsonSplitter

Split Code

参数调优指南

Chunk Size（块大小）

Chunk Overlap（块重叠）

Separator（分隔符）

常见误区与最佳实践

总结与选型建议

更多推荐文章

相关免费在线工具

LangChain 文档切分器详解：从字符到代码的文本分割策略

LangChain 文档切分器详解

主要文本分割器类型

CharacterTextSplitter

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

RecursiveCharacterTextSplitter

Split By Tokens

HTMLHeaderTextSplitter

MarkdownHeaderTextSplitter

RecursiveJsonSplitter

Split Code

参数调优指南

Chunk Size（块大小）

Chunk Overlap（块重叠）

Separator（分隔符）

常见误区与最佳实践

总结与选型建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具