你是否曾为大模型'一本正经地胡说八道'而困扰?或者希望它能回答关于你个人笔记或公司内部文档的问题?今天,我们就来一起动手搭建一个简单 RAG 系统,让你的大模型从'闭卷考试'变成'开卷考试',大幅提升回答的准确性和实用性。
了解了 RAG 的基本原理后,我们来看看如何动手实现它。

一、什么是 RAG?——让大模型'开卷考试'
1.1 RAG 的核心思想

想象一下,你正在参加一场考试。如果只能靠记忆答题,遇到不熟悉的知识点就容易答错甚至瞎编——这就像没有 RAG 的传统大语言模型(LLM)。它们的知识被'固化'在训练数据中,无法获取新信息,也容易产生'幻觉'。
而 RAG(Retrieval-Augmented Generation,检索增强生成)技术,就是给大模型发了一本'参考书'。当用户提问时,系统会先从这本'参考书'(你的知识库)里查找相关信息,再把找到的内容和问题一起交给大模型去生成答案。
这种'开卷考试'的方式带来了三大优势:
- ✅ 事实更准确:答案基于真实文档,大幅减少胡编乱造。
- ✅ 知识可更新:只需更新你的知识库文件,就能让大模型掌握最新信息。
- ✅ 支持私有数据:你可以让它读取你的 PDF 报告、Word 文档、网页内容,解答专属问题。
1.2 RAG 的工作流程

RAG 系统的工作可以分为两个阶段:离线准备和在线查询。
在你开始使用之前,需要先完成'离线准备'阶段,也就是把你的知识文档处理好,方便后续快速查找。
这个过程包含五个核心步骤:
- 用户提问:'阿司匹林的禁忌症是什么?'
- 查询向量化:将你的问题转换成一串数字(向量),这是计算机理解语义的方式。
- 向量检索:在存储着无数文档片段向量的数据库中,找出与问题向量最相似的几个片段。
- 提示增强:把检索到的相关片段和原始问题拼接起来,形成一个新的、信息更丰富的提示词。
- 大模型生成:把这个增强后的提示词交给大模型,它就能结合这些参考资料,生成一个有据可依的答案。
整个过程通常在几秒内完成,为你提供精准可靠的信息。
二、两种实现方式对比:Langchain vs 纯手搓






