深入解析大模型 RAG:检索、增强与生成的全面指南
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索技术与语言生成模型的人工智能技术。该技术通过从外部知识库中检索相关信息,并将其作为提示(Prompt)输入给大型语言模型(LLMs),以增强模型处理知识密集型任务的能力,如问答、文本摘要、内容生成等。RAG 模型由 Facebook AI Research(FAIR)团队于 2020 年首次提出,并迅速成为大模型应用中的热门方案。
一、检索增强生成(RAG)核心概念
什么是 RAG?
RAG 是一种 AI 框架,它将传统信息检索系统(例如数据库)的优势与生成式大语言模型 (LLM) 的功能结合在一起。LLM 通过将这些额外的知识与自己的语言技能相结合,可以撰写更准确、更具时效性且更贴合具体需求的文字。
如何理解 RAG?
RAG 是一种结合了信息检索、文本增强和文本生成的自然语言处理(NLP)的技术。其目的是通过从外部知识库检索相关信息来辅助大语言模型生成更准确、更丰富的文本内容。理解 RAG 的关键在于厘清'检索、增强、生成'三个步骤的主语关系:是从知识库中检索到的问答对,增强了 LLM 的提示词(prompt),LLM 拿着增强后的 Prompt 生成了问题答案。
- 检索(Retrieval):检索是 RAG 流程的第一步,从预先建立的知识库中检索与问题相关的信息。这一步的目的是为后续的生成过程提供有用的上下文信息和知识支撑。
- 增强(Augmentation):RAG 中增强是将检索到的信息用作生成模型(即大语言模型)的上下文输入,以增强模型对特定问题的理解和回答能力。这一步的目的是将外部知识融入生成过程中,使生成的文本内容更加丰富、准确和符合用户需求。通过增强步骤,LLM 模型能够充分利用外部知识库中的信息。
- 生成(Generation):生成是 RAG 流程的最后一步。这一步的目的是结合 LLM 生成符合用户需求的回答。生成器会利用检索到的信息作为上下文输入,并结合大语言模型来生成文本内容。

二、RAG 的原理、流程及架构
RAG 工作原理是什么?
大型语言模型(LLM)面临两个主要问题:第一个问题是 LLM 会产生幻觉,第二个是 LLM 的知识截止。
- 知识截止:当 LLM 返回的信息与模型的训练数据相比过时时。每个基础模型都有知识截止,这意味着其知识仅限于训练时可用的数据。
- 幻觉:当模型自信地做出错误反应时,就会发生幻觉。
检索增强生成 (RAG) 摆脱了知识限制,整合了外部数据,从外部知识库中检索相关信息,增强模型的生成能力。

RAG 工作流程是什么?
通过检索增强技术,将用户查询与索引知识融合,利用大语言模型生成准确回答。具体流程如下:
- 知识准备:收集并转换知识文档为文本数据,进行预处理和索引。
- 嵌入与索引:使用嵌入模型将文本转换为向量,并存储在向量数据库中。
- 查询检索:用户查询转换为向量,从数据库中检索相关知识。
- 提示增强:结合检索结果构建增强提示模版。
- 生成回答:大语言模型根据增强模版生成准确回答。
RAG 技术架构是什么?
RAG 技术架构主要由两个核心模块组成,检索模块(Retriever)和生成模块(Generator)。



