一、LLMs 已经具备了较强能力,为什么还需要 RAG?
尽管大语言模型(LLM)已展现出显著的能力,但以下几个挑战依然值得关注:
- 幻觉问题:LLM 采用基于统计的概率方法逐词生成文本,这一机制内在地导致其可能出现看似逻辑严谨实则缺乏事实依据的输出,即所谓的'郑重其事的虚构陈述'。
- 时效性问题:随着 LLM 规模扩大,训练成本与周期相应增加。鉴于此,包含最新信息的数据难以融入模型训练过程,导致 LLM 在应对诸如'请推荐当前热门影片'等时间敏感性问题时力有未逮。
- 数据安全问题:通用的 LLM 没有企业内部数据和用户数据。企业想要在保证安全的前提下使用 LLM,最好的方式就是把数据全部放在本地,企业数据的业务计算全部在本地完成,而在线的大模型仅仅完成一个归纳的功能。

二、什么是 RAG?
RAG(Retrieval Augmented Generation,检索增强生成)是一种技术框架,其核心在于当 LLM 面对解答问题或创作文本任务时,首先会在大规模文档库中搜索并筛选出与任务紧密相关的素材,继而依据这些素材精准指导后续的回答生成或文本构造过程,旨在通过此种方式提升模型输出的准确性和可靠性。

三、RAG 主要包含哪些模块?
模块一:版面分析
本地知识文件读取(pdf、txt、html、doc、excel、png、jpg、语音等),并进行知识文件复原。
模块二:知识库构建
- 知识文本分割,并构建 Doc 文本。
- Doc 文本 Embedding(向量化)。
- Doc 文本构建索引。
模块三:大模型微调
根据业务需求对基础模型进行特定领域的优化。
模块四:基于 RAG 的知识问答
- 用户 Query Embedding。
- Query 召回。
- Query 排序。
- 将 Top K 个相关的 Doc 进行拼接,构建 Context。
- 基于 Query 和 Context 构建 Prompt。
- 将 Prompt 喂给大模型生成答案。
四、RAG 相较于直接使用 LLMs 进行问答有哪些优点?
RAG(检索增强生成)方法赋予了开发者无需为每个特定任务重新训练大型模型的能力,仅需连接外部知识库,即可为模型注入额外的信息资源,从而显著提升其回答的精确度。这一方法尤其适用于那些高度依赖专业知识的任务。
以下是 RAG 模型的主要优势:
- 可扩展性:减小模型规模及训练开销,同时简化知识库的扩容更新过程。
- 准确性:通过引用信息源,用户能够核查答案的可信度,进而增强对模型输出结果的信任感。
- 可控性:支持知识内容的灵活更新与个性化配置。
- 可解释性:展示模型预测所依赖的检索条目,增进理解与透明度。
- 多功能性:RAG 能够适应多种应用场景的微调与定制,涵盖问答、文本摘要、对话系统等领域。
- 时效性:运用检索技术捕捉最新信息动态,确保回答既即时又准确,相比仅依赖固有训练数据的语言模型具有明显优势。
- 领域定制性:通过对接特定行业或领域的文本数据集,RAG 能够提供针对性的专业知识支持。
- 安全性:通过在数据库层面实施角色划分与安全管控,RAG 有效强化了对数据使用的管理,相较于微调模型在数据权限管理上的潜在模糊性,展现出更高的安全性。
五、对比一下 RAG 和 SFT,说一下两者有哪些区别?
实际上,对于 LLM 存在的上述问题,SFT(Supervised Fine-Tuning,监督微调)是一个最常见最基本的解决办法,也是 LLM 实现应用的基础步骤。那么有必要在多个维度上比较一下两种方法:

当然这两种方法并非非此即彼的,合理且必要的方式是结合业务需要与两种方法的优点,合理使用两种方法。

六、核心模块详解
1. 版面分析与文件解析
为什么需要版面分析?
尽管 RAG 技术的核心价值在于其结合检索与生成手段以提升文本内容的精确度与连贯性,然而在一些具体应用领域,如文档解析、智能化写作及对话系统构建中,特别是在面对结构化或半结构化信息的处理需求时,其功能边界可能拓展至版面分析。这是由于此类信息往往嵌于特定的布局结构中,需要对页面元素及其相互关系进行深入理解。
此外,当 RAG 模型面对包含丰富多媒体或多模态成分的数据源,诸如网页、PDF 文件、富文本记录、Word 文档、图像资料、语音片段、表格数据等复杂内容时,为了能高效地摄取并利用这些非文本信息,具备基本的版面分析能力变得至关重要。这种能力有助于模型精准解析各类信息单元,并成功将它们融合成有意义的整体解读。
实战技巧:不同格式文件的获取
- 富文本 TXT:排版整洁,获取方式简单。
- PDF 文档:数据复杂,包含文本、图片、表格。推荐使用
pdfplumber 或 PyMuPDF 进行解析。
- HTML 文档:结构复杂,推荐使用
BeautifulSoup 进行网页解析。
- Doc 文档:推荐使用
python-docx 解析。
- 图片内容:使用 OCR(光学字符识别)。开源项目包括 Tesseract、PaddleOCR、EasyOCR 等。
- 语音内容:使用 ASR(自动语音识别)。思路包括声学信号预处理、特征提取、声学模型、语言模型及字典解码。工具包括 WeTextProcessing、Wenet 等。
2. 知识库构建
为什么需要知识库构建?
在 RAG 中构建知识库是至关重要的,原因包括但不限于以下几点:
- 扩展模型能力:大规模语言模型受限于训练数据集的覆盖范围,通过构建知识库,RAG 可以补充模型自身的知识局限性。
- 实时更新信息:知识库可以实时更新和扩充,确保模型能够获取最新的知识内容。
- 提高准确性:RAG 结合了检索与生成两个过程,在生成回答前先检索相关文档。
- 减少过拟合与幻觉:通过引用知识库中的确切证据,RAG 可以降低模型生成无依据答案的可能性。
- 增强可解释性:RAG 不仅能提供答案,还能指出答案的来源。
Step 1:知识文本分块
为什么需要对文本分块?
- 信息丢失的风险:试图一次性提取整个文档的嵌入向量,虽然可以捕捉到整体的上下文,但也可能会忽略掉许多针对特定主题的重要信息。
- 分块大小的限制:在使用如 OpenAI 这样的模型时,分块大小是一个关键的限制因素。例如,GPT-4 模型有一个 32K 的窗口大小限制。
主要考虑两个因素:Embedding 模型的 Tokens 限制情况;语义完整性对整体的检索效果的影响。
Step 2:Docs 向量化(Embedding)
什么是 Docs 向量化?
Embedding 也是文本语义含义的信息密集表示,每个嵌入都是一个浮点数向量,使得向量空间中两个嵌入之间的距离与原始格式中两个输入之间的语义相似性相关联。
简单来说,Embedding 帮助计算机来理解如人类信息所代表的'含义',Embedding 可以用来获取文本、图像、视频、或其他信息的特征'相关性',这种相关性在应用层面常用于搜索、推荐、分类、聚类。
Embedding 是如何工作的?
举例来讲,这里有三句话:
- 'The cat chases the mouse' / '猫追逐老鼠'
- 'The kitten hunts rodents' / '小猫捕猎老鼠'
- 'I like ham sandwiches' / '我喜欢火腿三明治'
如果是人类来将这三个句子来分类,句子 1 和句子 2 几乎是同样的含义,而句子 3 却完全不同。Embedding 将离散信息(单词和符号)压缩为分布式连续值数据(向量)。如果我们将之前的短语绘制在图表上,它可能看起来像这样:句子 1 和 2 的含义相似,它们会被绘制在彼此附近。句子 3 却距离较远,因为它与它们没有关联。
Embedding 的语义检索方式对比关键词检索的优势?
- 语义理解:基于 Embedding 的检索方法通过词向量来表示文本,这使得模型能够捕捉到词汇之间的语义联关系。
- 容错性:由于基于 Embedding 的方法能够理解词汇之间的关系,所以在处理拼写错误、同义词、近义词等情况时更具优势。
- 多语言支持:许多 Embedding 方法可以支持多种语言,有助于实现跨语言的文本检索。
- 语境理解:基于 Embedding 的方法在处理一词多义的情况时更具优势。
常用 Embedding 模型
- 腾讯词向量
- SBERT
- SimCSE
- Text2Vec
- SGPT
- BGE(智源开源最强语义向量模型)
- M3E(一种大规模混合 embedding)
Step 3:Docs 构建索引
常用的向量数据库包括 Faiss、Milvus、Elasticsearch 等。Elasticsearch 可实现文本和向量两种方式混合查询,且在业务场景中使用更广泛。
3. 大模型微调
为什么需要大模型微调?
通常,要对大模型进行微调,有以下一些原因:
- 成本考量:大模型的参数量非常大,训练成本非常高。每家公司都去从头训练一个自己的大模型,这个事情的性价比非常低。
- Prompt Engineering 的局限:Prompt Engineering 的方式会把 Prompt 搞得很长。越长的 Prompt,大模型的推理成本越高,因为推理成本是跟 Prompt 长度的平方正向相关的。另外,Prompt 太长会因超过限制而被截断,进而导致大模型的输出质量打折。
- 效果要求:Prompt Engineering 的效果达不到要求,企业又有比较好的自有数据,能够通过自有数据,更好的提升大模型在特定领域的能力。
- 个性化服务:要在个性化的服务中使用大模型的能力,这时候针对每个用户的数据,训练一个轻量级的微调模型,就是一个不错的方案。
- 数据安全:如果数据是不能传递给第三方大模型服务的,那么搭建自己的大模型就非常必要。
大模型的微调技术路线
从参数规模的角度,大模型的微调分成两条技术路线:
- 全量微调(FFT, Full Fine Tuning):对全量的参数,进行全量的训练。
- 参数高效微调(PEFT, Parameter-Efficient Fine Tuning):只对部分的参数进行训练。这是目前比较主流的微调方案,解决了 FFT 训练成本高和灾难性遗忘的问题。
从训练数据的来源以及训练方法的角度,大模型的微调有以下几条技术路线:
- 监督式微调(SFT, Supervised Fine Tuning):用人工标注的数据,用传统机器学习中监督学习的方法,对大模型进行微调。
- 基于人类反馈的强化学习微调(RLHF, Reinforcement Learning with Human Feedback):把人类的反馈,通过强化学习的方式,引入到对大模型的微调中去。
- 基于 AI 反馈的强化学习微调(RLAIF, Reinforcement Learning with AI Feedback):反馈的来源是 AI,解决反馈系统的效率问题。
微调的最终目的,是能够在可控成本的前提下,尽可能地提升大模型在特定领域的能力。
4. 文档检索与 Reranker
为什么需要文档检索?
文档检索作为 RAG 核心工作,其效果对于下游工作至关重要。虽然可以通过向量召回的方式从文档库里召回和用户问题相关的文档片段,同时输入到 LLM 中,增强模型回答质量。但是很多时候,用户的问题是十分口语化的,描述的也比较模糊,这样会影响向量召回的质量,进而影响模型回答效果。
文档检索优化策略
- 负样本挖掘:在各类检索任务中,为训练好一个高质量的检索模型,往往需要从大量的候选样本集合中采样高质量的负例,配合正例一起进行训练。
- Reranker(重排序):基本的 RAG 应用包括四个关键技术组成部分:Embedding 模型、向量数据库、提示词工程、大语言模型。上述的基础 RAG 架构可以有效解决 LLM 产生'幻觉'、生成内容不可靠的问题。但是,一些企业用户对上下文相关性和问答准确度提出了更高要求,需要更为复杂的架构。一个行之有效且较为流行的做法就是在 RAG 应用中集成 Reranker。
Reranker 是信息检索(IR)生态系统中的一个重要组成部分,用于评估搜索结果,并进行重新排序,从而提升查询结果相关性。在 RAG 应用中,主要在拿到向量查询(ANN)的结果后使用 Reranker,能够更有效地确定文档和查询之间的语义相关性,更精细地对结果重排,最终提高搜索质量。常用模型如 BGE-Reranker。
5. RAG 评测与开源项目
为什么需要对 RAG 进行评测?
在探索和优化 RAG(检索增强生成器)的过程中,如何有效评估其性能已经成为关键问题。需要通过指标如检索准确率、生成质量、响应时间等进行综合评估。
RAG 开源项目推荐
- RAGFlow:一款基于深度文档理解构建的开源 RAG 引擎。可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。
- QAnything:一个本地知识库问答系统,旨在支持多种文件格式和数据库,允许离线安装和使用。支持 PDF、Word、PPT、Excel、Markdown、Email、Image、CSV、网页链接等格式。
- Langchain-Chatchat:基于 Langchain 与 ChatGLM 等语言模型的本地知识库问答应用。利用 Elasticsearch 代替 Faiss 作为知识存储库,实现文本和向量混合查询。
七、总结
RAG 技术通过结合检索与生成,有效解决了大模型在幻觉、时效性和数据隐私方面的痛点。通过合理的知识库构建、高效的检索策略以及必要的模型微调,企业可以构建出既安全又智能的垂直领域应用。在实际落地过程中,建议根据业务场景选择合适的 Embedding 模型、向量数据库以及是否引入 Reranker 进行二次排序,以达到最佳的性价比和效果。