智能系统架构设计:对话式 AI、协同驾驶与 RAG 范式
深入解析了复合人工智能系统的三种核心部署模式,涵盖检索增强生成(RAG)、对话式智能体及多智能体协作架构。内容涉及查询重构、自我纠正、任务规划等关键组件,对比了 ReAct 与 ReWoo 等工作流差异,并探讨了 CoPilot 的学习机制与主流框架如 LangGraph、AutoGen 的应用。文章旨在为开发者提供构建复杂 AI 应用的设计范式与技术选型参考。

深入解析了复合人工智能系统的三种核心部署模式,涵盖检索增强生成(RAG)、对话式智能体及多智能体协作架构。内容涉及查询重构、自我纠正、任务规划等关键组件,对比了 ReAct 与 ReWoo 等工作流差异,并探讨了 CoPilot 的学习机制与主流框架如 LangGraph、AutoGen 的应用。文章旨在为开发者提供构建复杂 AI 应用的设计范式与技术选型参考。

在上文中,我们介绍了何为复合人工智能系统,系统组件以及它们如何相互交互以构建复杂系统,基于 LLM 的自主智能体 —— 复合人工智能系统中的关键模块,以及复合人工智能系统的设计模式中关于定义的澄清和选择模式之前的考量。
在下文中,我们将介绍复合人工智能系统的三种部署模式。
下图显示了 RAG / 对话式 RAG 系统中各模块的主要职责,这传统上属于 IR 领域,首先通过神经搜索、知识图谱改进,然后是使用 LLM 的生成方法环。从另一个视角来看,这是一个对话式 IR 系统,当 IR 和对话系统合并,将查询视为转换上下文的对象。
对于 RAG 系统的成功,关键在于理解用户的查询并将其映射为底层知识(结构化或非结构化),并将其与适当的指令一起提供给生成器/对话管理器,这些动作可以使用一个明确定义的工作流,或者使用智能体模块,模块的动作决定执行哪些步骤。

RAG 流程,转交给对话管理器 — 如果对话管理器是一个智能体,RAG 则成为一个工具。
来看看一些中间模块/工具,它们允许智能体在复杂的 RAG 世界中导航。
查询扩展 / 多查询

使用 LLM 来扩展查询可以改进使用稀疏和统计检索器时的搜索结果。
查询重写 / 自我查询
自我查询检索器,顾名思义,具有自我查询的能力。具体来说,给定任何自然语言查询,检索器使用查询构建 LLM 链来编写结构化查询,然后将其应用于底层的 VectorStore。检索器不仅可以使用用户输入的查询与文档的内容进行语义相似性比较,还可以从用户查询中提取出文档元数据上的过滤器,并执行这些过滤器。
实体识别
查询增强
知识或意图检索
多文档搜索
对话管理
响应生成
智能体式 RAG 是一种设计模式,其中一个模块由 LLM 驱动,根据其可用工具集推理和规划如何回答问题。在高级场景中,可能还会连接多个智能体以创造性地解决 RAG 问题,智能体不仅能检索,还能验证、总结等。
需要细化的关键步骤和组件:
通常,使用以下模式执行:
ReAct

使用搜索工具进行推理和动作。
ReWoo

ReWoo — 比 ReAct 生成更少的标记。
PlanRAG
它由两个组件组成:首先,制定一个计划,将整个任务划分为更小的子任务,然后根据计划执行子任务。

传统意义上,对话流程一直是高度脚本化的,是'机器人说' -> '人类说' -> '机器人说'…的交互,表示不同假设的真实世界场景,对于 Rasa 开发人员来说也称为'故事'。每个用户的意图可以基于用户的状态和交互表达为数百个'故事',机器人采取动作执行已定义好的故事并予以回应响应。
例如,如果用户想要订阅新闻稿,可能有两个路径:

来源
如果用户说'如何订阅新闻稿'触发了意图,机器人需要检查该用户是否已经订阅,然后采取适当的下一步。这个'下一步该做什么'的决策是一个手动硬编码的路径。如果偏离了路径,机器人会说,'对不起,我还在学习,我可以帮助你做 xyz…'。
构建和维护机器人的真实成本来自这些故事,之所以要搭建上述乏味的模式,是为了使机器人能够在多样化的真实世界场景中导航,并且可以以有组织的方式添加新路径。路径编写者往往总是有一些'条件需要检查','动作需要执行'和'对话的最终目标'来构建一个有目标的执行脚本。
有了 LLM,可以尝试使用 LLM 的'推理'和'规划'能力来自动化脚本编写或路径规划。
想象一下,你是一个客户服务智能体,一名用户带着不同的需求来到你这里,该如何订阅你的服务?你将如何定义应该采取的下一步?它可以完全开放吗?很可能不是,从管理成本的角度来看,它也不能高度脚本化。如果我告诉你以下内容:
条件 — 如果存在电子邮件,那么用户可以订阅 工具 — check_subscription, add_subscription
作为有自尊的人类,你将能够在脑海中编织出如下故事:
这就是我们希望 LLM 做的,产生它可以参考的'计划',并在运行时据此采取动作。
回到模块模板,看看规划者的模样:

上述规划者使用工具和条件构建出计划或故事,来看看研究中的一个真实示例:

KnowAgent: 基于知识的 LLM 智能体增强规划
有哪些工具可以帮助规划者根据可靠的推理决定路径?
在多智能体设置中,目标是为 LLM 支持的生成器定义角色和责任,配备精准的工具,可以协同工作,生成智能答案/解决方案。
得益于明确定义的角色和底层模型,智能体将子目标或'计划'的一部分委派给'专家',然后根据输出来决定下一步该做什么。

使用下述通信模式控制下一步的权限。

智能体/模块如何通信以构建现实世界的 CoPilots — https://arxiv.org/pdf/2402.01680v1.pdf
多智能体设计的优势:
在 CoPilot 系统中看到的唯一区别是它能够从用户互动和测试功能中获得学习。
区分构建 CoPilots 的框架和实际的 CoPilots 实现(如 GPT Pilot 和 aider)非常重要。在大多数情况下,没有开源 CoPilots 是在已有框架上开发的,所有实现都是从头开始开发的。
回顾流行的实现:OpenDevin、GPT Pilot 回顾流行的研究论文:AutoDev、AgentCoder
流行的框架 — Fabric、LangGraph、DSPy、Crew AI、AutoGen、Meta GPT、Super AGI 等
全文尽可能坚持以下定义:基于 LLM 的多智能体。
GPT Pilot 项目是一个创造性提示工程和 LLM 响应链式'分层'流程的杰出例子,以执行看似复杂的任务。
有几个配置文件以分层通信方式工作,请参阅下面的绿色框:

各个智能体以分层方式交互,从一个节点触发到下一个节点,图中没有列出决策智能体。

根据一些漂亮的原则进行了产品部署,使其运作良好:
尽管包含上述复杂的提示工程和流程设计,但对每个智能体进行微调的好处却显而易见,不但可以降低成本而且可以提高准确性。
本文详细探讨了复合人工智能系统的四种核心部署模式及其技术实现细节。从基于检索增强生成的对话系统,到利用 LLM 规划能力的智能体对话,再到多智能体协作架构及 CoPilot 的学习机制,每种模式都有其特定的适用场景和优势。开发者在选择架构时,应综合考虑任务复杂度、成本控制及对实时性的要求。主流框架如 LangGraph、AutoGen 等为构建此类系统提供了坚实基础,而 GPT Pilot 等实践案例展示了分层提示工程在复杂任务中的有效性。未来,随着多智能体协同技术的成熟,AI 系统将具备更强的自主性和适应性,推动行业应用向更深层次发展。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online