引言
在人工智能领域,大型语言模型(LLM)如 ChatGPT、DeepSeek 等已经展现出惊人的能力,但它们也面临着一些固有局限:知识过时、产生幻觉、缺乏专业领域知识等。为了解决这些问题,检索增强生成(Retrieval-Augmented Generation,简称 RAG)技术应运而生。
RAG 技术最早由 Facebook AI Research 团队在 2020 年提出,但真正引起广泛关注是在 ChatGPT 发布之后。这项技术通过将大模型与外部知识库相结合,显著提升了 AI 系统的回答质量和可靠性。根据最新研究数据,采用 RAG 技术的问答系统,其回答准确率平均提升 40% 以上,幻觉率降低 50% 以上。
一、RAG 是什么?

RAG 是一种将检索与生成相结合的人工智能模型架构。其核心原理可以概括为'检索 + 生成'的两阶段流程:
- 检索阶段:将用户的问题转化为向量,从外部知识库中快速检索相关片段
- 生成阶段:将检索到的信息输入大模型,生成结合上下文的具体回答
用通俗的话来说,RAG 就像让大模型进行'开卷考试':当遇到不熟悉的问题时,先去'翻书'查找相关资料,然后再基于查找到的信息生成答案。这种方式显著提高了大模型回答的准确性和可靠性。
以医疗领域为例,当医生询问'最新的糖尿病治疗方案'时,RAG 系统会:
- 从最新的医学文献库中检索相关研究
- 找到最相关的治疗方案信息
- 将这些信息与问题结合,生成专业、准确的回答
RAG 三种范式:

二、RAG 为什么会出现?
RAG 技术的出现主要源于大模型的三个核心问题:
- 幻觉问题:大模型有时会'一本正经地胡说八道',生成看似合理实则错误的答案。例如,当询问'13.8 和 13.11 哪个更大'时,大模型可能会错误地认为 13.11 更大。这种现象在专业领域尤为明显,可能导致严重后果。
- 知识过时:大模型的训练数据截止于某个时间点,无法自动获取新知识。以 GPT-4 为例,其知识截止到 2023 年 1 月,对于之后发生的事件完全不了解。这意味着如果用户询问'2024 年奥运会奖牌榜',模型将无法给出准确答案。
- 专业领域知识不足:大模型在特定专业领域的知识储备有限。例如,在医疗、法律等专业领域,大模型可能缺乏足够的专业知识,导致回答不够准确或专业。
这些问题严重制约了大模型在实际应用中的表现。而 RAG 技术通过引入外部知识库,有效解决了这些问题。根据 Google DeepMind 的研究,采用 RAG 技术的系统在专业领域问答中的准确率提升了 60% 以上。

三、RAG 的工作原理




