前言
在大模型的定义概念及应用层涉及的一些基础概念已得到广泛了解后,RAG、Agent 等术语在开发中的具体含义也需进一步明确。本文重点阐述随着大模型的广泛应用,这些概念是在何种体系和场景下衍生的;基于 LLM,目前主流的业务架构和技术架构形态是怎样的。开发者在了解这些架构模式后,可根据现实业务需求选择合适技术路线。
技术架构的双重属性
软件开发通常分为基础设施层与应用设施层两大部分。大模型领域同样遵循这一规律:
- 基础大模型建设与训练:需要复杂、丰富且专业的知识体系,长期来看所需人员相对较少。
- 大模型应用开发:基于基础大模型构建上层应用,是绝大多数开发者的主要工作场景。
我们大多数人将集中在应用层进行开发,掌握相关技术已成为应对技术革新的必要能力。
典型的业务架构
在实际落地场景中,广泛使用或不断迭代演进的架构主要围绕以下三种类型展开:
AI Embedded 模式
该场景易于理解,即在传统应用的特定环节中加入 LLM 能力,辅助完成提效任务。例如在客服系统中嵌入智能问答模块,或在代码编辑器中提供自动补全功能。这种模式下,LLM 作为局部增强组件存在。
AI Copilot 模式
此模式在系统应用中广泛集成 LLM 能力,并通过应用界面进行串联。这是目前使用最广泛的模式,如 Microsoft Copilot、GitHub Copilot 等。在这些场景中,用户并不完全依赖算法结果进行最终决策,LLM 更多作为信息收集来源和参考依据。相比传统搜索引擎,Copilot 侧重于效率提升,交互形态虽未发生本质变化,但人机协作深度显著增加。
AI Agent 模式
与前两种模式不同,AI Agent 模式下人仅需提出要求和指令,AI 可自动拆解任务并执行。这标志着从'人主导'向'AI 自主执行'的转变。
单 Agent 与 Multi-Agent
在大模型领域,LLM 替代了传统 Agent 中的规则引擎及知识库,提供了推理、观察、批评和验证的对话通道。
- 单 Agent 系统:由单个智能体独立完成任务。常见实现包括 AutoGPT(尝试自动实现给定目标)、ChatGPT+(配合 code interpreter 或插件)、LangChain Agent(如 ReAct Agent)以及 Transformers Agent。这些系统通常遵循单 Agent 范式,不支持复杂的代理间协作。
- Multi-Agent 系统:由多个自主个体组成群体系统,通过个体间的相互通信和交互作用达成目标。当复杂任务被分解为子任务时,LLM 展现出解决复杂问题的能力。Multi-Agent 的通信与协作可通过'对话'方式实现子任务的分拆和集成。
常见的 Multi-Agent 框架包括 BabyAGI(任务管理系统,采用静态对话模式)、CAMEL(角色扮演通信框架)、Multi-Agent Debate(鼓励发散思维,改善事实性和推理)以及 MetaGPT(基于对话框架的自动软件开发)。Autogen 则是专为 Agent 开发而设计的应用框架,支持更灵活的协作模式。
技术架构详解
纯 Prompt 交互
最基本的对话式交互,用户输入提示词,模型直接输出回复。这种方式简单直接,适用于逻辑简单、无需外部工具调用的场景。但受限于上下文窗口和模型幻觉问题,稳定性较差。
Agent + Function Calling
- Agent:AI 主动分析用户需求并提出要求。
- Function Calling:AI 根据意图调用预定义的函数或 API。
- 场景举例:用户询问'过年去哪玩',AI 先反问预算、时间偏好,再调用搜索接口获取推荐。
这种架构增强了模型的工具使用能力,使其能连接外部数据源和执行操作。
RAG(Retrieval-Augmented Generation)
检索增强生成技术旨在解决大模型知识滞后和幻觉问题。
- Embeddings:将文本转换为高维向量编码,便于计算相似度。
- 向量数据库:存储向量索引,支持高效检索。
- :根据输入查询向量,在库中找到语义最相似的文档片段。


