什么是 Agent?为什么是 Agent?
大模型除了 Chat 外还能做什么用?
当我们将大型模型视为'核心调度器'时,它就变成了我们的 Agent。借助任务规划、记忆及外部工具等能力,大型模型能够识别出应该执行的任务以及执行方式,从而实现自主决策。
并非单纯地'执行任务的工具',Agent 更具备一种类似于具有主观能动性的人的'仿主体性'。这种拟主体性即指 Agent 以模仿人类的方式,实现从'计划','组织','执行','学习'等过程直至完成一个任务。

Agent 的主动模式相对于传统软件或机械的被动模式来说,无疑带来了革新。我们可以为 Agent 设定能力范围,让它自主地发现问题、设定目标、构思策略、挑选方案、执行任务并进行检查更新。
因此,Agent 可被视为'具备自主智能的实体',也被广泛地称作智能体。当前的 Agent 主要被分为三种类型:单体 Agent、多 Agent 协作(Multi-Agent)、以及与人交互的 Agent。
面对一个'任务',人类描述一个'目标',然后将这个任务的执行交给 Agent。AI 接受目标并自主地进行'感知环境','形成记忆','完成规划','选择行动','观察和纠正错误'等一系列以任务目标为导向的行动。
基于大模型的 AI Agent 并非一种'新技术',而更像是面向大型语言模型(LLMs)的一种'新的管理方式'。
基于 Prompt 的与大型模型互动的方式更像是静态的'输入 - 输出',而 AI Agent 给大模型提供了一个进行'动态决策'的框架,它使得大模型有能力处理更复杂、更多样化的决策任务,从而为大型模型从'语言'成功以稳固的基础迈向'真实世界'。
从 CoT 到 Agent
什么是 CoT
在深入理解思维链(Chain of Thought, CoT)之前,我们先来认识两个概念,即'语言智能'和'推理'。
'语言智能'可以被看作是使用基于自然语言的概念去理解经验事物,并对概念间进行推理的能力。而'推理'更常被理解为根据已知前提推出新结论的过程,这通常涉及到多个步骤并形成了关键的'中间概念',它们有助于解决复杂问题。

当我们让大型模型对复杂问题进行分解,将其转换为一步步可解决的子问题,大模型的性能得以显著提升。此时,这些推理的步骤便构成了我们所称的思维链 CoT。
一个完整的 CoT 形式的 Prompt 通常由三部分组成:指令(Instruction)、逻辑依据(Rationale)和示例(Exemplars),比如:
指令(Instruction):
'请你解决这个复杂的数学问题:求一个立方体的对角线长度,它的边长为'a'。'
逻辑依据(Rationale):
'首先,我们知道直角三角形中的勾股定理,然后,这个问题可以通过勾股定理解决。先找出立方体的一个面(一个平方),然后找出该平方的对角线长度,这就形成了一个新的直角三角形,该三角形的边长包括立方体的边,面的对角线,及我们要找的立方体的对角线。'
示例(Exemplars):
'让我们来执行它。首先,一个立方体的一个边面是一个正方形,而正方形的对角线长度可以通过勾股定理求出,即 d=sqrt(a^2 + a^2)= asqrt(2)。接下来,我们需要找出立方体的对角线,这会涉及到一个新的直角三角形,他的边长是 a,asqrt(2) 和立方体的对角线。再次应用勾股定理,我们可以得出立方体对角线长度为 sqrt(a^2 + 2a^2)= asqrt(3)。'
以上结构就是一个 CoT 形式的完整解析过程。
为什么使用 CoT
提升了大模型的推理能力:通过将复杂问题拆解为简单的子问题,CoT 大大增强了模型的推理能力。它还尽可能地减少了模型在解决问题时忽视关键细节的现象,从而确保计算资源始终集中在解决问题的核心步骤上。



