引言
在数字化转型的浪潮中,人工智能(AI)正以其前所未有的速度和规模,重塑着我们的世界。大语言模型(LLM)的出现,仿佛为 AI 赋予了思考的大脑。但若要让这些数字巨人真正步入现实世界,与人类并肩作战,我们还需要给它们配备什么?答案可能是:智能体(Agent)。
一、大模型与人类的区别
大模型虽然强大,但它们缺乏人类的某些本能——记忆、工具使用和规划思考能力。人类能够记住知识、使用工具、规划行动,而大模型则需要额外的支持来实现这些功能。
- LLM:能够接受输入、进行思考、推理输出结果。
- 人类:具备 LLM 的能力,加上记忆、工具使用和规划思考。
二、智能体(Agent)的概念
智能体,或称为 Agent,是一种计算机程序,它基于大语言模型,并通过添加规划思考、记忆和工具使用的能力,能够自主完成复杂的任务。它不仅仅是被动地回答问题,而是主动地感知环境、制定计划并执行操作。
[图:智能体架构示意图]
三、智能体的关键构成
在基于 LLM 的智能体中,LLM 充当着智能体的'大脑'的角色。下面对智能体的三大核心能力—规划、记忆与工具使用进行详细讲解。
1. 规划(Planning)
规划是智能体将复杂任务分解为可执行子任务的能力。它是智能体有效完成任务的行动指南。以下是规划在智能体中的全面应用:
- 任务分解:智能体将大型任务拆解成小的、可管理的子任务,使得任务的执行变得更加清晰和简单。
- 执行流程规划:智能体需要制定一个明确的执行计划,决定各个子任务的执行顺序和时间。
- 思考和反思:在任务执行过程中,智能体需要持续进行思考和反思,以评估当前的执行状态,并作出必要的调整。
- 任务监控与调整:智能体需要监控任务的执行情况,并根据实际情况进行调整,以确保任务能够顺利进行。
- 任务完成判断:智能体需要有能力判断任务何时完成,并在完成任务后进行适当的总结。
关键概念如下:
思维链 (Chain of Thoughts, CoT)
思维链已经是一种比较标准的提示技术,能显著提升 LLM 完成复杂任务的效果。当我们对 LLM 这样要求,会发现 LLM 会把问题分解成多个步骤,一步一步思考和解决,能使得输出的结果更加准确。这是一种线性的思维方式。
思维链的 Prompt 示例:
template = "回答问题:Q:{问题}?让我们一步一步地思考:"
思维树(Tree-of-thought, ToT)
对 CoT 的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS)等算法来探索思维树,并进行前瞻和回溯。
[图:思维树结构示意]
ReAct
ReAct(Yao et al. 2023),《ReAct: Synergizing Reasoning and Acting in Language Models》这篇论文提出一种用于增强大型语言模型的方法,它通过结合推理(Reasoning)和行动(Acting)来增强推理和决策的效果。
- 推理(Reasoning):LLM 基于「已有的知识」或「行动(Acting)后获取的知识」,推导出结论的过程。
- 行动(Acting):LLM 根据实际情况,使用工具获取知识,或完成子任务得到阶段性的信息。
不同规划模式的推演:
- 仅推理(Reasoning Only):LLM 仅仅基于已有的知识进行推理,生成答案回答这个问题。很显然,如果 LLM 本身不具备这些知识,可能会出现幻觉,胡乱回答一通。
- 仅行动(Acting Only):大模型不加以推理,仅使用工具(比如搜索引擎)搜索这个问题,得出来的将会是海量的资料,不能直接回到这个问题。
- 推理 + 行动(Reasoning and Acting):LLM 首先会基于已有的知识,并审视拥有的工具。当发现已有的知识不足以回答这个问题,则会调用工具,比如:搜索工具、生成报告等,然后得到新的信息,基于新的信息重复进行推理和行动,直到完成这个任务。


