16 种新型 RAG 技术最新进展与架构创新详解
RAG(Retrieval-Augmented Generation,检索增强生成)可以说是大模型时代最成功的落地模式之一。通过检索 - 生成的方式,极大地拓展了大模型的应用边界,解决了大模型知识截止和幻觉问题。但是,RAG 在落地实践上却没有那么简单。在实际构建 RAG 系统时,开发者常遇到以下核心挑战:
- 检索必要性判断:什么场景或问题下需要检索?简单的计算题不需要,但复杂推理可能需要。
- 检索质量评估:检索到的信息是否有用?是否正确?是否存在噪声?
- 信息融合策略:检索到的信息怎么用?直接与用户问题拼接还是需要进行信息压缩后拼接?
- 召回逻辑优化:以什么逻辑进行召回?召回信息是否需要排序?如何平衡查全率与查准率?
这些问题没有'放之四海皆准'的答案,在不同的场景、数据分布下,解决方案各不相同。从 2023 年 RAG 火爆以来,各类 RAG 框架或解决方案层出不穷,如 AnythingLLM、RAGFlow、Ollama 等,每一个都能搭建出一个完整基于 RAG 的知识库,但是通用不等于好用。每一个场景、甚至每一个人的数据都是独特的,这对于 RAG 系统的效果带来了巨大的挑战,但也推动了 RAG 领域研究的百花齐放。
总体发展趋势
纵观近期的学术研究与工业界实践,RAG 技术呈现出以下几个显著趋势:
- 专业化趋势:许多 RAG 变体都针对特定领域进行了深度优化,如医疗、金融、材料科学等垂直领域。
- 多模态融合:越来越多的 RAG 技术开始处理多模态数据,如视频、图像、文本的结合,不再局限于纯文本。
- 安全性考虑:随着 RAG 技术的普及,安全性问题(如隐私泄露、提示词注入)也开始受到高度关注。
- 效率优化:新的 RAG 变体都在尝试通过各种方式提升处理效率,降低计算成本,减少延迟。
- 可解释性提升:许多新方法都强调了可解释性的重要性,试图让模型决策过程更透明,便于调试和信任。
基础架构的创新
AutoRAG:自主决策机制
传统的 RAG 系统往往是被动执行检索指令,而中科院提出的 AutoRAG 则让 RAG 系统学会自主判断。它不再是简单地'给什么找什么',而是根据用户问题的复杂度动态决定是否需要检索以及检索的粒度。
例如,当用户问'谁是《怪物史莱克》中驴子的配音演员?'时,普通 RAG 可能会盲目搜索所有包含关键词的资料。AutoRAG 会先分析意图,判断是否需要外部知识,若需要则规划检索路径。同时,它还可以用自然语言解释自己的思考过程,这种透明度在实际应用中对于建立用户信任特别重要。
CORAG:基于 MCTS 的组合优化
现有的 RAG 系统在选择文本块时往往独立考虑,忽视了文本块之间的相关性。CORAG 的核心创新在于使用蒙特卡洛树搜索(MCTS)来探索文本块的最优组合顺序,同时引入配置代理来动态调整系统参数。这就像是在玩一个高级版的拼图游戏,寻找最佳的知识片段组合以回答复杂问题。不过,这种方法也有其局限性,构建和遍历策略树需要较多计算资源,参数的调整也需要仔细权衡。
FastRAG:分层召回策略
针对大模型上下文长度限制及长文本处理效率问题,FastRAG 制定了一个'两步走'的策略:先用简单的关键词匹配快速划定范围,再用更复杂的语义分析找出最相关的内容。这借鉴了传统搜索引擎的召回 - 粗排 - 精排逻辑,在保证准确性的同时显著提升了检索速度。
AssistantRAG:秘书模型架构
既然一个大模型的记忆能力有限,AssistantRAG 提出给主模型配备一个'专业秘书'模型。秘书模型负责记忆管理和知识管理,记录历史问答信息,评估这些记忆对当前问题的帮助程度;还会将复杂问题分解成简单的子问题,针对每个子问题检索外部知识库,主模型负责生成最终的输出。这种方法的优势在于灵活性强,在不同的场景,通过更换秘书模型达到快速适配的目的。
MemoryRAG:双重记忆架构
MemoryRAG 引入了一个'记忆模块',不仅懂得找书,还能理解读者的潜在需求。它采用了双重架构,一个负责处理长文本形成整体印象,另一个负责最终的回答生成。这种设计特别适合处理需要全局理解的复杂查询,比如分析文学作品中的人物关系、总结长篇报告等任务。


