RAG 技术深度解析：架构设计、优化策略与智能客服实践

智谱 AI 长期专注于大模型技术的研究，从 2023 年开始，大模型受到了各行各业的关注。在积累了丰富的模型落地应用实战经验后，我们发现 RAG（Retrieval-Augmented Generation）类应用占据了较大的比重。

什么是 RAG

所谓 RAG，简单来说，包含三件事情：

Indexing：即怎么更好地把知识存起来。
Retrieval：即怎么在大量的知识中，找到一小部分有用的，给到模型参考。
Generation：即怎么结合用户的提问和检索到的知识，让模型生成有用的答案。

RAG 核心流程示意图

这三个步骤虽然看似简单，但在 RAG 应用从构建到落地实施的整个过程中，涉及较多复杂的工作内容。为此，我们组建了一支专业团队，专注于打造企业服务场景的 RAG 系统，致力于为客户提供全面的支持与服务。

RAG 系统架构图

RAG 的核心优势

使用 RAG 技术，相比传统方案有以下显著优势：

解决幻觉问题：与直接跟大模型对话的方法相比，RAG 可以更好地解决模型的幻觉、知识更新不及时等问题。通过引入外部知识库，确保回答基于事实。
降低实施成本：与传统的 FAQ 或者搜索的方式相比，RAG 可以显著降低实施成本。例如传统需要人工整理的 FAQ 的场景，今天我们只需要把手册资料交给 RAG，就能实现高效准确的问答。
可追溯性：相较于大模型直接生成内容的方式，基于 RAG 的生成可以追溯到内容的来源，知道答案具体来源于哪条知识。大模型就像是计算机的 CPU，负责计算答案；而知识库就像是计算机的硬盘，负责存储知识。这种计算和存储分离的架构，便可以对知识回答的范围进行权限管理。
降低成本：目前大模型已具备了处理长上下文的能力，但如果每次问答都需要把几十万字的文档输入进去，会导致问答的成本成倍增加，特别是在客服场景。实际上我们只需要使用整个文档中一个很小的片段，就可以完成任务。所以在同样精度的情况下，利用 RAG 技术可以大大地降低整个成本。

技术方案全景

下图是技术方案的全景图：

技术方案全景图

整个技术方案包括三个层面：文件上传、用户提问和答案输出。这三个层面都需要有大量的工程和策略的工作去进行打磨。

文件上传与解析

以文件上传为例。在文件解析过程中，我们需要将无关的信息（页眉页脚等）过滤掉、将图片改写成特定标识符、将表格改写成模型易于理解的 html 格式等操作。同时，我们会对目录、标题等进行识别，有效提取文档的结构信息；也会对文件中的序列信息进行识别，以确保知识的连续完整。

此外，Embedding 模型本身因为有窗口限制，文档切片过大会导致检索信息不准确。为了解决这个问题，我们采用了 small to big 的策略，即在原始文档切片基础上，扩展了更多粒度更小的文档切片。检索文档时如果检索到粒度细致的切片，会递归检索到其原始大切片，然后再将原始节点作为检索结果提交给 LLM。