Agent 四大范式综述：深入理解智能体规划原理

系统梳理了基于大语言模型的智能体（Agent）规划研究，将其划分为任务分解、多方案选择、外部模块辅助、反思与优化、记忆增强五大范式。文章详细分析了各范式的核心方法、代表模型及优缺点，探讨了幻觉、可行性、效率等当前面临的挑战，并展望了未来结合符号规划与多模态反馈的发展方向，为理解 Agent 工作原理提供全面参考。

moshang发布于 2025/2/6更新于 2026/7/2130 浏览

Agent 四大范式综述：深入理解智能体规划原理

摘要

随着大型语言模型（LLMs）展现出显著的智能，将其应用于自主代理规划模块的研究受到了广泛关注。本综述系统性地审视了基于 LLM 的代理规划，涵盖了提升规划能力的最新研究成果。我们将现有的 LLM-代理规划研究进行了分类，涵盖任务分解、计划选择、外部模块、反思和记忆等方向，并针对每个方向进行了深入分析。同时，探讨了该研究领域面临的挑战与未来展望。

什么是智能体 Agent

Autonomous agents 又被称为智能体 Agent。能够通过感知周围环境、进行规划以及执行动作来完成既定任务。在这些能力中，规划尤为重要，它涉及到复杂的理解、推理和决策制定。

大语言模型出现以前，我们一般通过规则的方法，或者强化学习的方法来实现。但是这两种方法各有弊端：

规则的方法：指把复杂的自然语言问题转化为规则符号，往往需要行业专家的介入，缺乏容错能力，小错误可能导致整个系统的失败。
强化学习：一般是构建策略网络或奖励模型，但是一般需要大量样本进行训练，收集数据成本很高，可行性不大，很难推广开来。

近几年，大语言模型的兴起带来了智能体应用领域的巨大变化。大语言模型在逻辑推理、工具应用、策略规划、指令遵循等方面都有非常不错的表现，这使得大家开始意识到，将大语言模型作为 Agent 应用的核心认知系统，可以极大地提高智能体的规划能力。

Andrew Ng 近期多次强调 Agent 的重要性，越来越多的人发现，模型训练成本高昂，不如用 Agent 的方法来实现更加智能的应用体。

本文将 Agent 应用的能力分为五个主要类别：任务分解、多方案选择、外部模块辅助规划、反思与优化、记忆增强规划。这五大研究方向并非相互独立，而是相互关联，往往需要同时运用多种技术手段。

1. 任务分解

在现实世界中，环境往往充满了复杂性和变化，因此通过一次规划来解决复杂任务往往比较困难。所以将复杂任务简化是一个非常有效的办法，有点类似于'分而治之'的策略。任务分解一般包括两个环节：

将复杂任务拆解为多个子任务，称为分解阶段。
为子任务指定规划，这个阶段被称为子规划阶段。

目前，一般有两种组合方式：

先分解后规划（Decomposition-First Methods） 先把任务拆解为子任务，然后再为每个子任务指定子规划。包括 HuggingGPT、Plan-and-Solve、ProgPrompt 等典型方法都是用的这种方法进行规划。
- HuggingGPT：整合 Huggingface Hub 的多种多模态模型，打造出一个能够应对多模态任务的智能代理。该代理擅长处理如图像生成、分类、物体识别、视频注释、语音转文本等任务。LLM 在此过程中充当指挥官，负责解析人类输入的任务、挑选合适的模型并产出最终答复。最为关键的初阶段任务拆解中，HuggingGPT 明确指导 LLM 将接到的任务细化为一系列子任务，并明确任务间的依赖性。
- Plan-and-Solve：改进了 Few Shot COT 方法，将其原始的'让我们一步步来思考'转变为'首先制定计划'和'执行计划'的两步提示指令。这种 COT 方法在数学、常识及符号推理方面均有所提升。
- ProgPrompt：则将自然语言描述的任务转译为编程问题，通过代码定义代理的动作空间和环境中的对象，每个动作都明确为一个函数，每个对象则作为一个变量。这样，任务规划便自然转化为生成函数的过程。执行任务时，代理会先创建一个以函数调用来体现的计划，随后逐步实施。
边分解边规划（Interleaved Decomposition Methods） 任务分解和子任务规划交错进行。包括思维链、ReAct、PAL、PoT 等方法都是用的这种策略。
- CoT (Chain of Thought)：展示了 LLM 在少样本学习上的能力。它通过几个构建的路径引导 LLM 对复杂问题进行推理，利用 LLM 的推理能力进行任务拆解。Few Shot CoT 通过'让我们一步步思考'这一指令，激活了 LLM 的 Few Shot COT 功能。
- ReAct：与 CoT 不同，它将推理与规划分开处理，在推理（思考步骤）与规划（行动步骤）之间进行切换，显著提升了规划能力。视觉 ChatGPT 采用 ReAct 机制，将 LLM 作为代理的大脑，结合一系列视觉模型，赋予代理图像处理的能力。
- PAL (Program-Aided Language Models)：通过发挥 LLM 的编码专长，优化了 CoT，在推理过程中引导 LLM 生成代码，并最终通过代码解释器（如 Python）执行代码以得到答案，有效助力代理解决数学和符号推理难题。
- ：将推理过程彻底编程化，作者还运用了针对代码数据训练的 CodeX 模型，增强了解决数学和财务问题的效能。

Agent 四大范式综述：深入理解智能体规划原理

Agent 四大范式综述：深入理解智能体规划原理

摘要

什么是智能体 Agent

1. 任务分解

更多推荐文章

相关免费在线工具

2. 多方案选择

3. 外部模块辅助规划

4. 反思与优化（Reflection and Refinement）

5. 记忆增强规划

Agent 应用的局限性

结论

更多推荐文章

相关免费在线工具

Agent 四大范式综述：深入理解智能体规划原理

Agent 四大范式综述：深入理解智能体规划原理

摘要

什么是智能体 Agent

1. 任务分解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 多方案选择

3. 外部模块辅助规划

4. 反思与优化（Reflection and Refinement）

5. 记忆增强规划

Agent 应用的局限性

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具