深入理解 LLM Agent：核心概念、架构与发展趋势

LLM Agent 是指具备感知环境、决策和行动能力的人工智能实体。其通用框架包含大脑（LLM）、感知和行动三个部分。核心功能涵盖规划（如思维链、思维树）、记忆（短期与长期记忆及 RAG）以及工具使用。当前发展趋势显示，Agent 工作流将成为推动人工智能进步的关键力量，主要涉及反思、工具使用、规划和多智能体协作等方向。

竹影清风发布于 2024/6/28更新于 2026/4/232 浏览

如果机器不仅能理解言语，还能像人类一样思考、感知并采取行动，这便是人工智能的前沿领域。诸如 AutoGPT、BabyGPT、ChatDev、MetaGPT 和 AutoGen 等创新应用，正生动展现了基于大语言模型（LLMs）Agent 的无限潜力。

we treat AI agents as artificial entities that are capable of perceiving their surroundings using sensors, making decisions, and then taking actions in response using actuators

基本 LLM Agent 通用框架包括三个组成部分：大脑、感知和行动。

大脑：这是 LLM 基础代理的核心部分，主要由一个大型语言模型（LLM）组成。LLM 具有高质量的生成能力和深度理解能力，使其能够理解和生成自然语言，从而与环境进行交互。
感知：这是 LLM 基础代理的输入部分，它使代理能够感知其环境。这可能包括从各种源（如文本、图像、声音等）获取信息，并将这些信息转化为 LLM 可以理解的形式。
行动：这是 LLM 基础代理的输出部分，它使代理能够在其环境中采取行动。这可能包括生成自然语言文本以进行交流，或者控制其他系统以影响环境。

LLM Agent 通用框架

此外还提出了如下 LLM Agent 架构，与上文提出的有异曲同工之妙。

LLM Agent 架构

LLM 作为 Agent 系统的大脑，负责规划、记忆和工具使用等关键功能。

规划能力使得 LLM 能够对任务分解，这里常见的技术包括思维链（Chain of Thought, CoT）和思维树（Tree of Thoughts, ToT）等技术，将复杂任务分解为更小、更易管理的子任务。也能够通过自我批评和反思从而改进未来的行动，常见技术包括 Self-Refine 和 Reflexion。

记忆分为短期记忆和长期记忆。更具体的说，让 LLM 能够对当前的情景判定和决策都是利用 LLM 自身的短期记忆功能，也就是它支持的最大 Token 窗口，一般我们会通过提示工程（角色说明、任务说明、样例、输入输出说明) 来指导 LLM。对于长期记忆，通常就是外挂外部存储库，常见应用就是 RAG，使其能够弥补自身知识和私域知识的鸿沟。

工具使用，LLM 被赋予可以请求调用的函数，用于收集信息、采取行动或操纵数据，比如调用 web 搜索工具、计算器、写代码、或者 HuggingFace。

那么 LLM Agent 当下有哪些发展趋势呢？最近 Andrew.Ng 吴恩达教授在 letters 中表示大语言模型 Agents 工作流将是 AI 领域中一个关键的趋势，并且有可能在今年推动大规模的人工智能进步——甚至可能比下一代基础模型更甚。

I think AI agent workflows will drive massive AI progress this year — perhaps even more than the next generation of foundation models. This is an important trend, and I urge everyone who works in AI to pay attention to it.

吴恩达教授将 LLM Agent 工作流分为 4 个部分，分别是反思、工具使用、规划和多智能体协作。设计良好的流程图可以帮助读者充分理解这些工作流。

LLM Agent 工作流

深入理解 LLM Agent：核心概念、架构与发展趋势

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

深入理解 LLM Agent：核心概念、架构与发展趋势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具