大模型 RAG 中关键字检索的实现与实战

前言

RAG（Retrieval-Augmented Generation）系统搭建的基本流程通常包括以下步骤：

准备对应的垂域资料。
文档的读取解析，进行文档切分。
将分割好的文本灌入检索引擎（如向量数据库或搜索引擎）。
封装检索接口。
构建流程：Query -> 检索 -> Prompt -> LLM -> 回复。

本文将重点分享一个实现场景：基于 Elasticsearch（ES）的关键字检索。虽然当前 RAG 领域常强调向量检索，但关键字检索在特定场景下依然具有不可替代的高效性，且是理解混合检索的基础。

为什么还要了解关键字检索

随着 RAG 技术的发展，单纯的关键字检索或者向量检索都很难满足复杂场景的需求。了解关键字检索有助于深入理解混合检索（Hybrid Search）的原理及其必要性。

关键字检索的概念

关键字检索是通过匹配查询中的关键字与文档中的关键字来进行检索的。当用户输入一个查询时，系统会在文档集合中查找包含这些关键字的文档，并将它们返回给用户。

传统的一种检索方式，RAG 所使用的外挂数据库不只是狭义的数据库，搜索引擎也可以成为真实数据的一种来源。对于部分结构化程度高或精确匹配需求强的数据，使用关键词检索会高效快速得多。

关键字检索可能会受到一些问题的影响，例如同义词、拼写错误等，这可能会导致一些相关的文档被漏掉或者一些不相关的文档被检索到。

搭建一个简单关键字检索

安装必要环境

首先需要安装 Elasticsearch 客户端和文本处理库 NLTK。

# 安装 ES 客户端 (推荐使用 elasticsearch 包)
pip install elasticsearch

# 安装 NLTK（文本处理方法库）
pip install nltk

文本的处理

针对英文文本和中文文本的处理方法是不一样的，需要分别配置分词器和停用词表。

针对英文文本的处理实现

英文处理通常涉及词干提取（Stemming）和去除停用词。

from elasticsearch import Elasticsearch, helpers
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk
import re
import warnings

# 屏蔽 ES 的一些 Warnings
warnings.simplefilter("ignore")  

# 英文切词、词根、切句等方法
nltk.download('punkt')  
nltk.download('stopwords')  

def to_keywords(input_string):
    '''（英文）文本只保留关键字'''
    
    no_symbols = re.sub(, , input_string)
    word_tokens = word_tokenize(no_symbols)
    
    stop_words = (stopwords.words())
    ps = PorterStemmer()
    
    filtered_sentence = [ps.stem(w)  w  word_tokens   w.lower()  stop_words]
     .join(filtered_sentence)

大模型 RAG 中关键字检索的实现与实战

前言

为什么还要了解关键字检索

关键字检索的概念

搭建一个简单关键字检索

安装必要环境

文本的处理

针对英文文本的处理实现

更多推荐文章

相关免费在线工具

针对中文文本的处理实现

将文本灌入检索引擎

实现关键字检索

LLM 接口封装

Prompt 模板

一个简单的 RAG Pipeline 就产生了

什么是 Pipeline

Demo 运行流程

效果展示

高级配置与优化建议

1. 自定义 Analyzer

2. 查询优化

3. 性能考量

总结

关键字检索的局限性

更多推荐文章

相关免费在线工具

大模型 RAG 中关键字检索的实现与实战

前言

为什么还要了解关键字检索

关键字检索的概念

搭建一个简单关键字检索

安装必要环境

文本的处理

针对英文文本的处理实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

针对中文文本的处理实现

将文本灌入检索引擎

实现关键字检索

LLM 接口封装

Prompt 模板

一个简单的 RAG Pipeline 就产生了

什么是 Pipeline

Demo 运行流程

效果展示

高级配置与优化建议

1. 自定义 Analyzer

2. 查询优化

3. 性能考量

总结

关键字检索的局限性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具