如果机器不仅能理解言语,还能像人类一样思考、感知并采取行动,这便是人工智能的前沿领域。诸如 AutoGPT、BabyGPT、ChatDev、MetaGPT 和 AutoGen 等创新应用,正生动展现了基于大语言模型(LLMs)Agent 的无限潜力。
we treat AI agents as artificial entities that are capable of perceiving their surroundings using sensors, making decisions, and then taking actions in response using actuators
基本 LLM Agent 通用框架包括三个组成部分:大脑、感知和行动。
- 大脑:这是 LLM 基础代理的核心部分,主要由一个大型语言模型(LLM)组成。LLM 具有高质量的生成能力和深度理解能力,使其能够理解和生成自然语言,从而与环境进行交互。
- 感知:这是 LLM 基础代理的输入部分,它使代理能够感知其环境。这可能包括从各种源(如文本、图像、声音等)获取信息,并将这些信息转化为 LLM 可以理解的形式。
- 行动:这是 LLM 基础代理的输出部分,它使代理能够在其环境中采取行动。这可能包括生成自然语言文本以进行交流,或者控制其他系统以影响环境。

此外还提出了如下 LLM Agent 架构,与上文提出的有异曲同工之妙。

LLM 作为 Agent 系统的大脑,负责规划、记忆和工具使用等关键功能。
规划能力使得 LLM 能够对任务分解,这里常见的技术包括思维链(Chain of Thought, CoT)和思维树(Tree of Thoughts, ToT)等技术,将复杂任务分解为更小、更易管理的子任务。也能够通过自我批评和反思从而改进未来的行动,常见技术包括 Self-Refine 和 Reflexion。
记忆分为短期记忆和长期记忆。更具体的说,让 LLM 能够对当前的情景判定和决策都是利用 LLM 自身的短期记忆功能,也就是它支持的最大 Token 窗口,一般我们会通过提示工程(角色说明、任务说明、样例、输入输出说明) 来指导 LLM。对于长期记忆,通常就是外挂外部存储库,常见应用就是 RAG,使其能够弥补自身知识和私域知识的鸿沟。
工具使用,LLM 被赋予可以请求调用的函数,用于收集信息、采取行动或操纵数据,比如调用 web 搜索工具、计算器、写代码、或者 HuggingFace。
那么 LLM Agent 当下有哪些发展趋势呢?最近 Andrew.Ng 吴恩达教授在 letters 中表示大语言模型 Agents 工作流将是 AI 领域中一个关键的趋势,并且有可能在今年推动大规模的人工智能进步——甚至可能比下一代基础模型更甚。
I think AI agent workflows will drive massive AI progress this year — perhaps even more than the next generation of foundation models. This is an important trend, and I urge everyone who works in AI to pay attention to it.
吴恩达教授将 LLM Agent 工作流分为 4 个部分,分别是反思、工具使用、规划和多智能体协作。设计良好的流程图可以帮助读者充分理解这些工作流。


