未来是 Agent 的世界,AI Agent 正在以各种方式迅速进入我们的生活,将在未来几年内彻底改变我们的生活方式。
一、什么是 AI Agent (LLM Agent)
1.1 AI Agent 的定义
在 LLM 语境下,Agent 可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,Agent 是一个具有复杂推理能力、记忆和执行任务手段的系统。
Agent 并非 ChatGPT 升级版,它不仅告诉你'如何做',更会帮你去做。如果 Copilot 是副驾驶,那么 Agent 就是主驾驶。
一个精简的 Agent 决策流程,用函数表达式:
Agent:P(感知)—> P(规划)—>A(行动)
类似人类'做事情'的过程,Agent 的核心功能,可以归纳为三个步骤的循环:感知(Perception)、规划(Planning)和行动(Action)。
感知(Perception)是指 Agent 从环境中收集信息并从中提取相关知识的能力,规划(Planning)是指 Agent 为了某一目标而作出的决策过程,行动(Action)是指基于环境和规划做出的动作。
其中,Policy 是 Agent 做出 Action 的核心决策,而行动又通过观察(Observation)成为进一步 Perception 的前提和基础,形成自主的闭环学习过程。
这一过程就像马克思主义的'实践论':'认识从实践开始,经过实践得到了理论的认识,再回到实践中去。'Agent 也在知行合一中进化。
一个更完整的 Agent,一定是与环境充分交互的,它包括两部分——一是 Agent 的部分,二是环境的部分。此刻的 Agent 就如同物理世界中的'人类',物理世界就是人类的'外部环境'。
可以想象,人类与外部环境交互的过程:我们基于对这个世界的全部感知,推导出其隐藏的状态,并结合自己的记忆和对世界的知识理解,进而做出 Planning、决策和行动;而行动又会反作用于环境,给我们新的反馈,人类结合对反馈的观察,继而再做决策,以此循环往复。
最直观的公式:
Agent = LLM+Planning+Feedback+Tool use
其中,在做 Planning 的过程中,除了基于现在的状态,还有要记忆、经验,一些对过往的反思和总结,同时还有世界知识。
对比今天的 ChatGPT,它其实并非 Agent,而是一个通用的世界知识,即用来做 Planning 的知识源,它没有基于具体的环境状态,也没有 Memory,Experience 和 Reflection。
当然,ChatGPT 基于自身的知识可以做逻辑推理和一定的规划,也可以加向量数据库解决推理问题,加 Reflection 让过程更丰富,如此看来,可将 ChatGPT 这个端到端的黑盒子变得显性化一点儿——其实符号就是一个非常显性的系统,基于此可以定向纠错,定向提升。
对于 Feedback,Agent 基于 Action 得到正向的或试错的反馈、阶段性结果或奖励。Feedback 有多种形式,如果将与我们聊天的 ChatGPT 视为一个 Agent,我们在文本框中敲入的回复就是一种 Feedback,只不过是一种文本形式的 Feedback,此时我们对于 ChatGPT 来说,就是一种环境。RLHF 也是一种环境,一种极度简单的环境。
'人类之所以是人类,因为他会使用工具。'
作为智能体,Agent 也可以借助外部工具扩展功能,使其能够处理更加复杂的任务。比如 LLM 使用天气 API 来获取天气预报信息。如果不调用外部工具,Action 和 Feedback 也可以直接通过学习 Policy,应对环境。
可见 Agent 是真正主动释放 LLM 潜能的关键。LLM 作为核心,Agent 为 LLM 提供了行动的主观能动性。
1.2 AI Agent 的主要组成部分
在 LLM 赋能的自主 agent 系统中 (LLM Agent),LLM 充当 agent 大脑的角色,并与若干关键组件协作。
规划(planning)
- 子目标分解:agent 将大任务拆分为更小的可管理的子目标,使得可以有效处理复杂任务。
- 反思与完善:agent 对历史动作可以自我批评和自我反思,从错误中学习并在后续步骤里完善,从而改善最终结果的质量。
记忆(Memory)
- 短期记忆:上下文学习即是利用模型的短期记忆学习
- 长期记忆:为 agent 提供保留和召回长期信息的能力,通常利用外部向量存储和检索实现
工具使用(tool use)
- 对模型权重丢失的信息,agent 学习调用外部 API 获取额外信息,包括当前信息、代码执行能力、专有信息源的访问等等
行动(Action)


