Agent 四大范式综述:深入理解智能体规划原理
摘要
随着大型语言模型(LLMs)展现出显著的智能,将其应用于自主代理规划模块的研究受到了广泛关注。本综述系统性地审视了基于 LLM 的代理规划,涵盖了提升规划能力的最新研究成果。我们将现有的 LLM-代理规划研究进行了分类,涵盖任务分解、计划选择、外部模块、反思和记忆等方向,并针对每个方向进行了深入分析。同时,探讨了该研究领域面临的挑战与未来展望。
什么是智能体 Agent
Autonomous agents 又被称为智能体 Agent。能够通过感知周围环境、进行规划以及执行动作来完成既定任务。在这些能力中,规划尤为重要,它涉及到复杂的理解、推理和决策制定。
大语言模型出现以前,我们一般通过规则的方法,或者强化学习的方法来实现。但是这两种方法各有弊端:
- 规则的方法:指把复杂的自然语言问题转化为规则符号,往往需要行业专家的介入,缺乏容错能力,小错误可能导致整个系统的失败。
- 强化学习:一般是构建策略网络或奖励模型,但是一般需要大量样本进行训练,收集数据成本很高,可行性不大,很难推广开来。
近几年,大语言模型的兴起带来了智能体应用领域的巨大变化。大语言模型在逻辑推理、工具应用、策略规划、指令遵循等方面都有非常不错的表现,这使得大家开始意识到,将大语言模型作为 Agent 应用的核心认知系统,可以极大地提高智能体的规划能力。
Andrew Ng 近期多次强调 Agent 的重要性,越来越多的人发现,模型训练成本高昂,不如用 Agent 的方法来实现更加智能的应用体。
本文将 Agent 应用的能力分为五个主要类别:任务分解、多方案选择、外部模块辅助规划、反思与优化、记忆增强规划。这五大研究方向并非相互独立,而是相互关联,往往需要同时运用多种技术手段。
1. 任务分解
在现实世界中,环境往往充满了复杂性和变化,因此通过一次规划来解决复杂任务往往比较困难。所以将复杂任务简化是一个非常有效的办法,有点类似于'分而治之'的策略。任务分解一般包括两个环节:
- 将复杂任务拆解为多个子任务,称为分解阶段。
- 为子任务指定规划,这个阶段被称为子规划阶段。
目前,一般有两种组合方式:
-
先分解后规划(Decomposition-First Methods) 先把任务拆解为子任务,然后再为每个子任务指定子规划。包括 HuggingGPT、Plan-and-Solve、ProgPrompt 等典型方法都是用的这种方法进行规划。
- HuggingGPT:整合 Huggingface Hub 的多种多模态模型,打造出一个能够应对多模态任务的智能代理。该代理擅长处理如图像生成、分类、物体识别、视频注释、语音转文本等任务。LLM 在此过程中充当指挥官,负责解析人类输入的任务、挑选合适的模型并产出最终答复。最为关键的初阶段任务拆解中,HuggingGPT 明确指导 LLM 将接到的任务细化为一系列子任务,并明确任务间的依赖性。
- Plan-and-Solve:改进了 Few Shot COT 方法,将其原始的'让我们一步步来思考'转变为'首先制定计划'和'执行计划'的两步提示指令。这种 COT 方法在数学、常识及符号推理方面均有所提升。
- ProgPrompt:则将自然语言描述的任务转译为编程问题,通过代码定义代理的动作空间和环境中的对象,每个动作都明确为一个函数,每个对象则作为一个变量。这样,任务规划便自然转化为生成函数的过程。执行任务时,代理会先创建一个以函数调用来体现的计划,随后逐步实施。
-
边分解边规划(Interleaved Decomposition Methods) 任务分解和子任务规划交错进行。包括思维链、ReAct、PAL、PoT 等方法都是用的这种策略。
- CoT (Chain of Thought):展示了 LLM 在少样本学习上的能力。它通过几个构建的路径引导 LLM 对复杂问题进行推理,利用 LLM 的推理能力进行任务拆解。Few Shot CoT 通过'让我们一步步思考'这一指令,激活了 LLM 的 Few Shot COT 功能。
- ReAct:与 CoT 不同,它将推理与规划分开处理,在推理(思考步骤)与规划(行动步骤)之间进行切换,显著提升了规划能力。视觉 ChatGPT 采用 ReAct 机制,将 LLM 作为代理的大脑,结合一系列视觉模型,赋予代理图像处理的能力。
- PAL (Program-Aided Language Models):通过发挥 LLM 的编码专长,优化了 CoT,在推理过程中引导 LLM 生成代码,并最终通过代码解释器(如 Python)执行代码以得到答案,有效助力代理解决数学和符号推理难题。
- PoT (Proof-of-Thought):将推理过程彻底编程化,作者还运用了针对代码数据训练的 CodeX 模型,增强了解决数学和财务问题的效能。


