RAG 技术深度解析:架构设计、优化策略与智能客服实践
智谱 AI 长期专注于大模型技术的研究,从 2023 年开始,大模型受到了各行各业的关注。在积累了丰富的模型落地应用实战经验后,我们发现 RAG(Retrieval-Augmented Generation)类应用占据了较大的比重。
什么是 RAG
所谓 RAG,简单来说,包含三件事情:
- Indexing:即怎么更好地把知识存起来。
- Retrieval:即怎么在大量的知识中,找到一小部分有用的,给到模型参考。
- Generation:即怎么结合用户的提问和检索到的知识,让模型生成有用的答案。

这三个步骤虽然看似简单,但在 RAG 应用从构建到落地实施的整个过程中,涉及较多复杂的工作内容。为此,我们组建了一支专业团队,专注于打造企业服务场景的 RAG 系统,致力于为客户提供全面的支持与服务。

RAG 的核心优势
使用 RAG 技术,相比传统方案有以下显著优势:
- 解决幻觉问题:与直接跟大模型对话的方法相比,RAG 可以更好地解决模型的幻觉、知识更新不及时等问题。通过引入外部知识库,确保回答基于事实。
- 降低实施成本:与传统的 FAQ 或者搜索的方式相比,RAG 可以显著降低实施成本。例如传统需要人工整理的 FAQ 的场景,今天我们只需要把手册资料交给 RAG,就能实现高效准确的问答。
- 可追溯性:相较于大模型直接生成内容的方式,基于 RAG 的生成可以追溯到内容的来源,知道答案具体来源于哪条知识。大模型就像是计算机的 CPU,负责计算答案;而知识库就像是计算机的硬盘,负责存储知识。这种计算和存储分离的架构,便可以对知识回答的范围进行权限管理。
- 降低成本:目前大模型已具备了处理长上下文的能力,但如果每次问答都需要把几十万字的文档输入进去,会导致问答的成本成倍增加,特别是在客服场景。实际上我们只需要使用整个文档中一个很小的片段,就可以完成任务。所以在同样精度的情况下,利用 RAG 技术可以大大地降低整个成本。
技术方案全景
下图是技术方案的全景图:

整个技术方案包括三个层面:文件上传、用户提问和答案输出。这三个层面都需要有大量的工程和策略的工作去进行打磨。
文件上传与解析
以文件上传为例。在文件解析过程中,我们需要将无关的信息(页眉页脚等)过滤掉、将图片改写成特定标识符、将表格改写成模型易于理解的 html 格式等操作。同时,我们会对目录、标题等进行识别,有效提取文档的结构信息;也会对文件中的序列信息进行识别,以确保知识的连续完整。
此外,Embedding 模型本身因为有窗口限制,文档切片过大会导致检索信息不准确。为了解决这个问题,我们采用了 small to big 的策略,即在原始文档切片基础上,扩展了更多粒度更小的文档切片。检索文档时如果检索到粒度细致的切片,会递归检索到其原始大切片,然后再将原始节点作为检索结果提交给 LLM。
产品方案
下面是产品方案的全景图:










