AI Agent 核心概念与架构深度解析
什么是 Agent?
Agent 一词源于拉丁语 Agere,意为'行动'(to do)。在大语言模型(LLM)的语境下,Agent 被定义为一种能够自主理解环境、进行规划决策并执行复杂任务的智能体。它不仅仅是像 ChatGPT 那样被动地回答问题,而是具备主动性,能够根据目标自主完成一系列操作。如果将 Copilot 比作辅助驾驶的副驾驶,那么 Agent 则是掌握方向盘的主驾驶。
自主 Agent 是由人工智能驱动的程序,当给定一个明确的目标时,它们能够自行创建子任务、执行任务、重新评估优先级、处理新出现的顶层任务,并循环迭代直到达成最终目标。
Agent 的核心公式与决策流程
Agent 的工作机制可以概括为以下核心公式: Agent = LLM(大脑)+ Planning(规划)+ Feedback(反馈)+ Tool Use(工具使用)
其决策流程遵循经典的闭环逻辑:
- 感知(Perception):Agent 从环境中收集信息并提取相关知识的能力。这包括读取文本、图像、API 返回数据等。
- 规划(Planning):Agent 为了达成某一特定目标而作出的决策过程。这涉及任务拆解、路径选择等。
- 行动(Action):基于环境和规划做出的具体动作,如调用 API、执行代码、发送消息等。
Policy 是 Agent 做出行动的核心决策依据。行动的结果又为进一步感知提供了新的观察前提和基础,从而形成一个自主的闭环学习过程。
人类思维模型的映射:PDCA
在工作中,我们通常使用 PDCA(计划 - 执行 - 检查 - 行动)思维模型。基于此模型,我们可以将 LLM 替代人做事的逻辑进行拆解:
- 规划能力(Plan)-> 分解任务:Agent 的大脑负责将宏大的任务拆解为更小、可管理的子任务。这对于有效且可控地处理复杂的大规模任务至关重要。
- 执行能力(Do)-> 使用工具:当模型内部知识不足(例如预训练权重中不存在的信息)时,Agent 应能调用外部 API。这包括获取实时信息、执行代码能力、访问专有知识库等。这是一个典型的平台 + 工具场景,需要构建生态意识,即构建平台及必要工具,吸引厂商提供组件,形成生态。
- 评估能力(Check)-> 确认执行结果:Agent 需判断产出物是否符合目标。在发生异常时,需对异常进行分类(危害等级)、定位(哪个子任务产生错误)并进行原因分析。这是通用大模型目前较欠缺的能力,通常需要针对特定场景训练独有的小模型。
- 反思能力(Act/Reflect)-> 基于评估结果重新规划:Agent 需在产出物符合目标时及时结束任务,这是流程最核心的部分。同时需进行归因分析总结主要因素。若发生异常或不符合目标,需给出应对措施并重新规划开启再循环过程。
架构组件详解
记忆(Memory)
- 短期记忆:在上下文中学习。它是短暂且有限的,受限于 Transformer 的上下文窗口长度。
- 长期记忆:代理在查询时可以注意到的外部向量存储,可以通过快速检索访问。这使得 Agent 能够跨越会话保持状态。
反思(Reflection)
反思是由代理生成的更高级别、更抽象的思考。因为反思也是一种记忆,所以在检索时,它们会与其他观察结果一起被包含在内。反思是周期性生成的,当代理感知到的最新事件的重要性评分之和超过一定阈值时,就会生成反思。让代理确定要反思什么,生成的问题作为检索的查询。
计划(Plan)
计划是为了做更长时间的规划。像反思一样,计划也被储存在记忆流中(第三种记忆),并被包含在检索过程中。这使得代理能够在决定如何行动时,同时考虑观察、反思和计划。如果需要,代理可能在中途改变他们的计划(即响应,reacting)。
类 LangChain 中的关键概念
在构建 Agent 系统时,常参考以下模块设计:
- Models:调用大模型 API 的核心接口。
- Prompt Templates:在提示词中引入变量以适应用户输入的提示模版。
- Chains:对模型的链式调用,以上一个输出为下一个输入的一部分。
- :能自主执行链式调用以及访问外部工具的智能体。


