前言
随着大语言模型(LLM)技术的飞速发展,其应用场景已从单纯的概念验证走向实际落地。在深入理解大模型定义及应用层概念(如 RAG、Agent)的基础上,本文重点探讨这些概念衍生的体系与场景。我们将分析基于 LLM 的主流业务架构和技术架构,帮助开发者根据现实业务需求选择合适技术路线。
技术分层:基础设施与应用设施
软件开发通常分为基础层(中间件、框架)和应用层。大模型领域同样遵循这一规律:
- 基础大模型建设与训练:需要复杂的专业知识和算力资源,长期来看参与人员较少。
- 大模型应用开发:基于基础模型构建具体应用,是绝大多数开发者的工作重心。
正如业界共识,我们正面临信息过载和技术革新,掌握应用层能力已成为必备技能。本文将聚焦于应用层的架构设计。
典型的业务架构
在实际落地场景中,主流的业务架构围绕以下三种模式演进:
1. AI Embedded 模式
AI Embedded 指在传统应用中嵌入 LLM 能力,作为特定环节的辅助工具。例如在客服系统中加入智能问答模块,或在 IDE 中提供代码补全功能。此模式下,LLM 不改变原有业务流程的核心逻辑,仅提升局部效率。
2. AI Copilot 模式
Copilot 模式广泛应用 LLM 能力串联系统流程。用户通过自然语言交互,系统调用多个 LLM 实例或工具完成复杂任务。典型代表包括 Microsoft Copilot、GitHub Copilot。
- 特点:人为主决策,AI 为参考。相比传统搜索引擎,主要提升信息获取和处理的效率,形态未发生本质变化。
- 适用场景:文档生成、代码辅助、数据分析报告等。
3. AI Agent 模式
Agent 模式实现了从'人机协作'到'自主执行'的转变。用户仅需提出目标,AI 自动拆解任务并执行。
单 Agent 与 Multi-Agent
- 单 Agent:单个 LLM 实例负责推理、观察和执行。常见实现包括 AutoGPT、ChatGPT+Plugins、LangChain Agent、Transformers Agent。它们通常遵循单一范式,不支持复杂的跨代理协作。
- Multi-Agent(多智能体):由多个自主个体组成,通过通信协作解决复杂问题。LLM 替代了传统规则引擎,Agent 间通过对话分拆子任务。
- BabyAGI:静态对话模式,预定义 Agent 通信顺序,用于任务管理。
- CAMEL:支持角色扮演通信,记录对话以分析行为,但初期版本不支持工具使用。
- MetaGPT:分配不同角色(如产品经理、工程师)协作开发软件。
- Autogen:微软推出的框架,支持自定义 Agent 交互逻辑,适合复杂任务编排。
技术架构方案
1. 纯 Prompt(Zero/Few-Shot)
最基础的交互方式,通过精心设计的提示词引导模型输出。适用于简单问答或格式转换,成本低但稳定性受限于模型本身能力。
2. Agent + Function Calling
结合外部工具扩展模型能力。
- Agent:主动规划任务步骤。
- Function Calling:模型识别意图并调用预设函数(API)。
- 场景:查询天气、预订机票。模型先反问预算,再调用搜索接口。
3. RAG(检索增强生成)
解决模型知识截止和幻觉问题。
- Embeddings:将文本转换为向量编码。
- 向量数据库:存储向量以便快速相似度检索。


