RAG 框架全览：15 种关键技术综述

1. 引言

1.1 检索增强生成（RAG）概览

检索增强生成（Retrieval-Augmented Generation, RAG）是一种将信息检索与大语言模型（LLM）生成能力相结合的技术架构。它融合了两大核心组件：

检索模块：负责从外部知识库中检索相关文档或信息。利用密集向量表示从大型数据集（如维基百科、私有数据库）中识别与查询相关的文档。
生成模块：负责处理检索到的信息，产出类似人类语言的文本。检索到的文档随后被送入生成模块，该模块通常基于 Transformer 架构构建。

RAG 有助于减少生成内容的'幻觉'现象，确保文本更具事实性和上下文适宜性。随着大模型上下文窗口（Context Window）的限制，RAG 已成为解决长尾知识问答和动态数据更新的关键方案。其应用领域广泛，包括开放领域问答、对话智能体、个性化推荐等。

1.2 混合检索和生成的新系统

在 RAG 出现之前，自然语言处理（NLP）主要依赖于检索或生成方法，两者各有优劣：

基于检索的系统：例如传统的信息检索引擎，能够高效地根据查询提供相关文档或片段，但无法合成新信息或以连贯的叙述形式呈现结果。
基于生成的系统：随着 Transformer 架构的兴起，纯生成模型以其流畅性和创造力受到欢迎，却常常在事实准确性上有所欠缺，且难以获取训练数据之外的最新知识。

这两种方法的互补性，使得大家开始尝试检索和生成的混合系统。最早的混合系统可以追溯到 DrQA，使用检索技术来获取问答任务的相关文档，为后续 RAG 的发展奠定了基础。

1.3 RAG 的局限性

尽管 RAG 优势明显，但在实际落地中仍面临挑战：

检索精度问题：在面对模糊查询或特定知识领域的检索时，仍可能出现错误。依赖于如 DPR（Dense Passage Retrieval）所使用的密集向量表示，有时也会检索出不相关或偏离主题的文档。因此，需要通过引入更精细的查询扩展和上下文消歧技术来提升检索技术的精准度。理论上，检索与生成的结合应该是天衣无缝的，但在实际操作中，生成模块有时难以将检索到的信息有效整合进回应中，导致检索事实与生成文本间的不一致或不连贯。
计算成本：计算成本也是一个备受关注的点，因为需要对每个查询执行检索和生成两个步骤，这对于大规模应用尤其资源密集。模型剪枝或知识蒸馏等技术可能有助于在不牺牲性能的前提下降低计算负担。
伦理问题：尤其是偏见和透明度问题。AI 和 LLM 中的偏见是一个广泛研究且不断演变的领域，研究者们识别出包括性别、社会经济阶层、教育背景在内的多种偏见类型。虽然 RAG 通过检索更平衡的信息有潜力减少偏见，但仍存在放大检索来源偏见的风险。而且，确保检索结果在选择和使用过程中的透明度，对于维护这些系统的信任至关重要。

2. RAG 系统的核心构件与架构概览

2.1 RAG 模型概览

RAG 模型包括两个核心组件：

检索器：利用密集段落检索（DPR）或传统 BM25 算法等技术，从语料库中检索最相关的文档。
生成器：将检索到的文档整合成连贯、上下文相关的回答。

RAG 的强项在于其能够动态利用外部知识，在性能上超越了依赖静态数据集的生成模型如 GPT-3。这使得系统能够随时接入最新的文档库，而无需重新训练整个模型。

2.2 RAG 系统中的检索器

2.2.1 BM25

BM25 是一种使用较广的信息检索算法，利用词频 - 逆文档频率（TF-IDF）来根据相关性对文档进行排序。尽管是一种经典方法，依然是许多现代检索系统，包括 RAG 模型中使用的系统的一个标准算法。

BM25 根据查询词在文档中的出现频率来计算文档的相关性得分，同时考虑文档长度和词在整个语料库中的频率。尽管 BM25 在关键词匹配方面表现出色，但它在理解语义含义上存在局限。例如，BM25 无法捕捉词与词之间的关系，并且在处理需要上下文理解的复杂自然语言查询时表现不佳。

但是，BM25 因简单高效而被广泛采用。适用于基于关键词的简单查询任务，尽管像 DPR 这样的现代检索模型在处理语义复杂的任务时往往性能更好。

2.2.2 密集段落检索（DPR）

密集段落检索（Dense Passage Retrieval，DPR）是一种新的信息检索方法。使用一个高维向量空间，查询和文档都被编码成高维向量。

RAG 框架全览：15 种关键技术综述