16 种新型 RAG 技术最新进展与架构创新详解
本文详细梳理了 16 种新型 RAG 技术的最新进展,涵盖基础架构创新、复杂数据处理、垂直领域应用及安全性分析。文章介绍了 AutoRAG、CORAG、FastRAG 等架构优化方案,探讨了 HtmlRAG、RAF、VideoRAG 在多模态与时序数据上的应用,并分析了医疗、金融等领域的专用 RAG 系统。同时指出了 RAG 面临的安全风险及防护策略,为实际落地提供了技术选型与实施建议。

本文详细梳理了 16 种新型 RAG 技术的最新进展,涵盖基础架构创新、复杂数据处理、垂直领域应用及安全性分析。文章介绍了 AutoRAG、CORAG、FastRAG 等架构优化方案,探讨了 HtmlRAG、RAF、VideoRAG 在多模态与时序数据上的应用,并分析了医疗、金融等领域的专用 RAG 系统。同时指出了 RAG 面临的安全风险及防护策略,为实际落地提供了技术选型与实施建议。

RAG(Retrieval-Augmented Generation,检索增强生成)可以说是大模型时代最成功的落地模式之一。通过检索 - 生成的方式,极大地拓展了大模型的应用边界,解决了大模型知识截止和幻觉问题。但是,RAG 在落地实践上却没有那么简单。在实际构建 RAG 系统时,开发者常遇到以下核心挑战:
这些问题没有'放之四海皆准'的答案,在不同的场景、数据分布下,解决方案各不相同。从 2023 年 RAG 火爆以来,各类 RAG 框架或解决方案层出不穷,如 AnythingLLM、RAGFlow、Ollama 等,每一个都能搭建出一个完整基于 RAG 的知识库,但是通用不等于好用。每一个场景、甚至每一个人的数据都是独特的,这对于 RAG 系统的效果带来了巨大的挑战,但也推动了 RAG 领域研究的百花齐放。
纵观近期的学术研究与工业界实践,RAG 技术呈现出以下几个显著趋势:
传统的 RAG 系统往往是被动执行检索指令,而中科院提出的 AutoRAG 则让 RAG 系统学会自主判断。它不再是简单地'给什么找什么',而是根据用户问题的复杂度动态决定是否需要检索以及检索的粒度。
例如,当用户问'谁是《怪物史莱克》中驴子的配音演员?'时,普通 RAG 可能会盲目搜索所有包含关键词的资料。AutoRAG 会先分析意图,判断是否需要外部知识,若需要则规划检索路径。同时,它还可以用自然语言解释自己的思考过程,这种透明度在实际应用中对于建立用户信任特别重要。
现有的 RAG 系统在选择文本块时往往独立考虑,忽视了文本块之间的相关性。CORAG 的核心创新在于使用蒙特卡洛树搜索(MCTS)来探索文本块的最优组合顺序,同时引入配置代理来动态调整系统参数。这就像是在玩一个高级版的拼图游戏,寻找最佳的知识片段组合以回答复杂问题。不过,这种方法也有其局限性,构建和遍历策略树需要较多计算资源,参数的调整也需要仔细权衡。
针对大模型上下文长度限制及长文本处理效率问题,FastRAG 制定了一个'两步走'的策略:先用简单的关键词匹配快速划定范围,再用更复杂的语义分析找出最相关的内容。这借鉴了传统搜索引擎的召回 - 粗排 - 精排逻辑,在保证准确性的同时显著提升了检索速度。
既然一个大模型的记忆能力有限,AssistantRAG 提出给主模型配备一个'专业秘书'模型。秘书模型负责记忆管理和知识管理,记录历史问答信息,评估这些记忆对当前问题的帮助程度;还会将复杂问题分解成简单的子问题,针对每个子问题检索外部知识库,主模型负责生成最终的输出。这种方法的优势在于灵活性强,在不同的场景,通过更换秘书模型达到快速适配的目的。
MemoryRAG 引入了一个'记忆模块',不仅懂得找书,还能理解读者的潜在需求。它采用了双重架构,一个负责处理长文本形成整体印象,另一个负责最终的回答生成。这种设计特别适合处理需要全局理解的复杂查询,比如分析文学作品中的人物关系、总结长篇报告等任务。
为了更好的利用外部的知识,RuAG 通过规则增强的方式来提升模型的理解能力。比如在天气预测场景中,与其让模型记住大量天气数据,不如教会它理解'如果温度超过 30 度且湿度低于 50%,那么天气晴朗'这样的规则。这种方法更容易理解和记忆,计算成本也较低,适合逻辑性强的任务。
随着 RAG 应用场景的不断增多,我们可能会遇到各种各样的数据,网页、PDF、文本、时序、音频、视频等等,每种数据类型都带来了独特的挑战。
在网页数据处理方面,HtmlRAG 提供了一个很巧妙的解决方案。它不是简单地把网页转换成纯文本,而是尝试保留那些传达重要含义的 HTML 标签。它首先会清理掉网页中的广告代码、样式表等'干扰信息',但会保留标题、列表等结构标签。相比纯文本的方式,基于这样的结构化信息,HtmlRAG 能够更加高效地利用网页信息,减少噪声干扰。
时间序列预测是个老生常谈的问题,比如预测明天的天气、股票走势、电力消耗等。传统方法往往把这些预测看作是独立的任务。检索增强预测(RAF)的核心思想是先在历史数据中找到类似的模式片段,看看那个历史数据之后模式是怎么变化的,再将这些历史经验作为预测的参考。如果能找到历史上天气条件非常相似的那几天,看看那之后温度是怎么变化的,这样的预测显然会更准确。
RAG 的思想也可以应用到视频理解场景。目前的大语言模型处理长视频时会遇到'记不住'的问题,即上下文窗口的限制让它们难以处理长视频。有的团队试图通过微调来扩展模型的处理能力,有的则尝试使用更大的模型,但这些方法要么需要大量训练数据,要么成本太高。VideoRAG 提出了一个独特的方法,从多个维度去理解视频内容,包括视觉特征、音频信息和字幕文本,虽然不同信息之间的对齐可能是一个需要考虑的问题,但这确实能得到更好的效果。
RAG 技术在各个垂直领域都展现出了强大的应用潜力,研究者们针对不同领域的特点,提出了一系列创新性的解决方案。
在医疗领域,精确和可靠的诊断信息处理至关重要。
金融分析师每天要阅读大量的财报、公告、研究报告,而且时效性要求特别高。针对这种情况,研究者们开发了 MultiReranker 系统。它的工作方式是对用户的问题进行多维度的拆解和改写,然后采用了一个'多级筛选'的策略,就像是组建了一个金融分析师团队。通过多级的检索机制实现对信息的高效利用。特别是,当输入文本太长时,系统会把文档分成两半分别处理,然后再把生成的答案合并起来,既保证了准确性,又提高了效率。
没有绝对安全的系统,也没有绝对安全的技术。随着 RAG 技术在医疗、金融、法律等敏感领域的广泛应用,安全性问题日益凸显。
RAG-Thief 的研究让我们清晰地看到了当前 RAG 系统中存在的安全隐患。很多人可能会觉得疑惑:RAG 系统不是只会返回相关信息吗,怎么会有安全问题呢?研究者通过巧妙设计的实验揭示了其中的风险。如果一家医院使用 RAG 系统来回答医疗咨询,当有人问'感冒有什么症状'时,系统会正常地返回一般性的医学知识。但如果有人用特殊的方式提问,比如巧妙地设计问题来套取原始病例信息,系统可能就会不经意间泄露病人的隐私数据。论文发现,在没有特殊防护措施的情况下,攻击者能够提取出超过 70% 的知识库内容。
针对这些问题,可以采取以下措施:
RAG 的范式是简单可理解的,但真正落地实践的过程中,会有许许多多的问题和痛点。上面提到的 RAG 方法或框架,也只是给出了优化探索的方向。真正在自己的场景中发挥 RAG 的效果,还需要结合实际业务数据进行反复调优。
在实际中应用 RAG 的时候,可以进行综合的考虑:
未来的 RAG 系统将更加注重智能化、安全性和多模态能力的融合。开发者需要根据自身的数据特点和业务需求,选择合适的技术路线,才能在激烈的竞争中脱颖而出。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online