AI 大模型：从零搭建 Agent 框架

综述由AI生成AI Agent 是基于语言模型的自主智能实体，通过规划、记忆和工具调用实现复杂任务。文章介绍了 Agent 的核心组件及思维链（CoT）、ReAct 等推理框架。详细阐述了如何从零搭建 ReAct 框架，包括 Agent 输入输出处理、工具定义与函数声明生成、以及执行器循环逻辑。通过 TypeScript 代码示例展示了 AgentExecutor 的运行机制，并指出了后续可优化的方向如错误处理和日志记录。

菩提发布于 2025/2/7更新于 2026/6/221 浏览

AI Agent

Agent 的核心思想是使用语言模型来选择要采取的一系列操作。在 Agent 中，语言模型被用作推理引擎来确定要采取哪些操作以及按什么顺序。相比于传统机械或软件被动的'给予输入——>做出输出'的模式，Agent 由于更加强调自主的发现问题、确定目标、构想方案、选择方案、执行方案、检查更新的特性，因此可以被认为是一类拥有'自主智能的实体'，而被广泛称之为智能体。

下文介绍的 Plan/Memory/Tool 三组件只是 Agent 框架一种简单的拆分（参考了 LangChain），除此外还有多种理解 Agent 框架的视角，读者若感兴趣可以自行学习以下 Agent 框架：

Baby Agent
Auto GPT
Agents 框架
清华大学的 XAgent

Planning 规划

子目标和分解：AI Agent 将大型任务分解为更小的、可管理的子目标，从而能够有效处理复杂的任务。
反思和完善：Agent 可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并针对未来的步骤进行完善，从而提高最终结果的质量。

Memory 记忆

短期记忆：所有的上下文学习（参见提示工程）都是利用模型的短期记忆来学习。
长期记忆：这为 AI Agent 提供了长期保留和调用无限信息的能力，通常是通过利用外部向量存储和快速检索来实现。

Tool / Toolkit

Agent 学习调用外部 API 来获取模型权重中缺失的额外信息，通常这些信息在预训练后很难更改，包括当前信息、代码执行能力、对专有信息源的访问等。工具是代理可以调用的功能，本质上就是一个函数。使用工具是 AI Agent 最迷人最先进的特性。

思考框架

CoT

语言智能可以被理解为'使用基于自然语言的概念对经验事物进行**'理解'以及在概念之间进行'推理'**的能力'。

理解能力上，作为'语言模型'的大模型具备概念理解能力并不难理解，但是仅仅像 Word2vec 一样只能得到'国王'与'男人'的'距离'更近的结论对于语言智能而言必然远远不够。

真正让人惊讶的是大模型在推理上的能力涌现。推理，一般指根据几个已知的前提推导得出新的结论的过程，区别于理解，推理一般是一个'多步骤'的过程，推理的过程可以形成非常必要的'中间概念'，这些中间概念将辅助复杂问题的求解。

2022 年，在 Google 发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出，通过让大模型逐步参与将一个复杂问题分解为一步一步的子问题并依次进行求解的过程可以显著提升大模型的性能。而这一系列推理的中间步骤就被称为思维链（Chain of Thought）。

CoT 大家应该都比较熟了，使用它的方法很简单：

对于 Zero-Shot，只需要在 Prompt 的结尾加一句：

Let's think step by step

对于 One-Shot 或 Few-Shot，需要在 Prompt 中适当地为大模型提供一些示例。

拓展：CoT 其实也在逐渐进化，出现了各种让大模型进行复杂链路思考的方式。

ReAct

无论是环境的反馈，还是人类的指令，Agent 都需要完成一个对接收到的信息进行'理解'，并依据得到的理解进行意图识别，转化为下一步任务的过程。在前文中之所以介绍 CoT，是因为使用 CoT 可以大大帮助模型对现有输入进行'感知'，激活大模型对任务的拆分规划和推理能力。借鉴 CoT，我们可以归纳出基本的 Agent 框架并延伸，ReAct 就是其中之一。

从引入了一个框架，其中 LLMs 以交错的方式生成 推理轨迹 和 任务特定操作。

生成推理轨迹使模型能够诱导、跟踪和更新操作计划，甚至处理异常情况。操作步骤允许与外部源（如知识库或环境）进行交互并且收集信息。

ReAct 框架允许 LLMs 与外部工具交互来获取额外信息，从而给出更可靠和实际的回应。

结果表明，ReAct 可以在语言和决策任务上的表现要高于几个最先进水准要求的基线。ReAct 还提高了 LLMs 的人类可解释性和可信度。总的来说，作者发现了将 ReAct 和链式思考 (CoT) 结合使用的最好方法是在推理过程同时使用内部知识和获取到的外部信息。

运作机理

ReAct 的灵感来自于'行为'和'推理'之间的协同作用，正是这种协同作用使得人类能够学习新任务并做出决策或推理。

链式思考 (CoT) 提示显示了 LLMs 执行推理轨迹以生成涉及算术和常识推理的问题的答案的能力，以及其他任务。但它因缺乏和外部世界的接触或无法更新自己的知识，而导致事实幻觉和错误传播等问题。

AI 大模型：从零搭建 Agent 框架

AI Agent

Planning 规划

Memory 记忆

Tool / Toolkit

思考框架

CoT

ReAct

运作机理

更多推荐文章

相关免费在线工具

搭建一个 ReAct 框架

简单的 ReAct

Agent

Agent Inputs 代理输入

Agent Outputs 代理输出

Action

AgentAction 代理行动

AgentFinish 代理完成

Intermediate Steps 中间步骤

Tool

在 Prompt 中描述工具

为工具函数生成函数声明

方案一：手动 Copy

方案二：AI 自动生成

方案三：zod 自动生成

Executor

运行

可改进的地方

更多推荐文章

相关免费在线工具

AI 大模型：从零搭建 Agent 框架

AI Agent

Planning 规划

Memory 记忆

Tool / Toolkit

思考框架

CoT

ReAct

运作机理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

搭建一个 ReAct 框架

简单的 ReAct

Agent

Agent Inputs 代理输入

Agent Outputs 代理输出

Action

AgentAction 代理行动

AgentFinish 代理完成

Intermediate Steps 中间步骤

Tool

在 Prompt 中描述工具

为工具函数生成函数声明

方案一：手动 Copy

方案二：AI 自动生成

方案三：zod 自动生成

Executor

运行

可改进的地方

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具