RAG 系统中文本分割（Chunking）的原理与最佳实践

RAG 系统中文本分割（Chunking）的原理与最佳实践 | 极客日志

from langchain.text_splitter import CharacterTextSplitter

text = "这是一个示例文本，用于演示固定大小的分块方法。" * 100

text_splitter = CharacterTextSplitter(
    separator="\n\n",      # 分隔符，优先按此分割
    chunk_size=256,        # 块大小，单位通常是字符或 token
    chunk_overlap=20       # 重叠部分，防止语义断裂
)

docs = text_splitter.create_documents([text])

text = "..." # your text
docs = text.split(".")

from langchain.text_splitter import NLTKTextSplitter

text = "..." # your text
text_splitter = NLTKTextSplitter()
docs = text_splitter.split_text(text)

from langchain.text_splitter import SpacyTextSplitter

text = "..." # your text
text_splitter = SpacyTextSplitter()
docs = text_splitter.split_text(text)

from langchain.text_splitter import RecursiveCharacterTextSplitter

text = "..." # your text
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=256,
    chunk_overlap=20,
    separators=["\n\n", "\n", ".", " ", ""]
)
docs = text_splitter.create_documents([text])

from langchain.text_splitter import MarkdownTextSplitter

markdown_text = "# 标题\n\n正文内容..."
markdown_splitter = MarkdownTextSplitter(chunk_size=100, chunk_overlap=0)
docs = markdown_splitter.create_documents([markdown_text])

from langchain.text_splitter import LatexTextSplitter

latex_text = "..." # your latex content
latex_splitter = LatexTextSplitter(chunk_size=100, chunk_overlap=0)
docs = latex_splitter.create_documents([latex_text])

RAG 系统中文本分割（Chunking）的原理与最佳实践

RAG 系统中文本分割（Chunking）的原理与最佳实践

为什么需要文本分割（Chunking）

语义搜索场景

会话智能体场景

Embedding 大文本和小文本

句子级嵌入

段落/文档级嵌入

查询长度的影响

非均质索引的挑战

分块的思路与变量

主流分块方法详解

定长 Chunking（Fixed-size chunking）

内容感知分片（Content-aware Chunking）

句子分割

递归 Chunking（Recursive Chunking）

固定格式的分割

确定应用中最佳的块大小

预处理数据

决定一个块的尺寸范围

评估性能

高级技巧与常见问题

重叠（Overlap）的重要性

混合检索策略

动态分块

结论

更多推荐文章

相关免费在线工具

RAG 系统中文本分割（Chunking）的原理与最佳实践

RAG 系统中文本分割（Chunking）的原理与最佳实践

为什么需要文本分割（Chunking）

语义搜索场景

会话智能体场景

Embedding 大文本和小文本

句子级嵌入

段落/文档级嵌入

查询长度的影响

非均质索引的挑战

分块的思路与变量

主流分块方法详解

定长 Chunking（Fixed-size chunking）

内容感知分片（Content-aware Chunking）

句子分割

递归 Chunking（Recursive Chunking）

固定格式的分割

确定应用中最佳的块大小

预处理数据

决定一个块的尺寸范围

评估性能

高级技巧与常见问题

重叠（Overlap）的重要性

混合检索策略

动态分块

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具