基于大模型的检索增强生成(RAG, Retrieval-Augmented Generation)已成为生成式 AI 在企业领域落地最重要的应用形式之一。随着相关理论与实践的不断展开与完善,RAG 应用正逐渐从原型阶段走向生产环境,并呈现出显著的技术演进趋势。
1. 可编排的模块化 RAG 工作流
经典的基于向量检索的 RAG 在应对简单的事实查询、数据量较小、语义不够复杂的场景下表现良好。但在生产型的企业应用中,由于原始知识的形态多样性、庞大的数据量、查询任务的复杂性、单一索引技术的局限性以及 LLM 自身的理解与推理局限,容易带来召回精度不够、响应质量较低、答案不确定性较大等问题。
因此,涌现出了较多复杂的 RAG 工作流。它们基于可重用的各种 RAG 模块与算子,包括但不限于文档加载与拆分模块、查询重写算法、索引模块、检索算法、重排模型、响应合成算法等,进行组合与编排。这些工作流通常带有条件路由、分支、循环、迭代等逻辑,以实现自我反思、按需检索、概要性查询任务等能力。常见的范式包括 Self-RAG、C-RAG、RAPTOR 等。
关键技术:
- 工作流编排框架:如 LangGraph、LlamaIndex Workflows、LangFlow 等,支持状态管理和循环控制。
- RAG 模块与算法:利用成熟的框架如 LangChain、LlamaIndex 构建基础组件。
- 关联技术:Self-RAG 中需要的模型微调技术,用于优化反思和评分机制。
实现示例: 在 LangGraph 中,可以定义一个节点处理查询重写,另一个节点负责检索,再根据检索结果的质量决定是否触发二次检索或直接生成回答。这种有向图结构允许开发者精确控制数据流向和决策逻辑。
2. 从以文本为核心到多模态协同
随着企业数据量的指数级增长,传统的以文本为核心的 RAG 技术逐渐暴露出局限性。在实际场景中,企业数据形式非常多样化,包括图像、视频、音频、传感器数据以及文本等多模态内容。为更好地挖掘和释放这些数据的潜在价值,RAG 技术正在从'以文本为核心'向多模态集成与协同的方向发展。
多模态 RAG 的价值主要体现在:
- 充分释放数据价值:企业积累的多模态内容,如产品图片、视频教程、用户反馈音频等,往往未被充分利用。多模态 RAG 技术能够跨越数据类型,将这些'孤立'信息整合为有价值的知识资产。例如,在制造业中,多模态 RAG 可以结合机器设备的监控视频、传感器数据和操作手册文本,为设备维护和故障排除提供智能指导。
- 优化用户交互体验:通过将生成内容从单一的文字升级为图文并茂或音视频结合的方式,RAG 技术可以用更直观、生动的形式传递信息。如在教育或培训领域,基于多模态 RAG 的系统可以检索相关课程资料和视频讲解,并自动生成多媒体学习内容,提升学员的学习效率。
关键技术:
- 多模态内容语义对齐:确保不同模态的数据在特征空间中具有可比性。
- 多模态大模型:支持同时理解文本、图像、音频的基座模型。
- 复杂的文档智能:解析包含图表、公式的复杂 PDF 或扫描件。
- 多模态嵌入:将非文本数据转化为向量表示。
3. 以知识图谱为代表的多索引融合
当前的 RAG 技术大多以向量索引为核心。尽管在处理高维语义搜索和模糊匹配方面具有显著优势,但也存在明显的局限性,比如受到嵌入模型影响的语义检索精确性、缺乏对结构化信息与复杂数据关系的支持、可解释性不足、计算成本较高等问题。因此,越来越多的 RAG 应用从单一的向量检索逐渐向多种索引技术融合的方向演进,包括关键词索引、知识图谱索引、结合传统关系型数据库的索引方法等。
其中,基于知识图谱的 Graph RAG 最具代表性。通过构建 Graph 结构的知识索引与检索能力,GraphRAG 在处理涉及复杂实体关系、语义推理与多步逻辑关联的查询上更具优势,更擅长处理隐式事实查询的任务。
整体而言,多索引技术融合的 RAG 方法的价值在于:
- 广泛适配多样化场景:不同索引方式在不同数据类型和查询需求下各有优势,融合多种索引技术后,RAG 系统能够更广泛地适配。
- 提升检索精度:通过多索引协同工作,能够在不同索引策略间切换或并行检索,并借助独立的重排序(Rerank)模型,提升最终结果的准确性。
- 增强可解释性:知识图谱等结构化索引方法为检索结果提供了更强的逻辑性和可解释性,能更清晰地向用户展示结果来源和推理路径。


