谷歌 AI Agent 白皮书：2025 年迎来 AI 智能体时代

综述由AI生成基于谷歌 AI Agent 白皮书，详细介绍了生成式人工智能 Agent 的核心架构与实现方法。文章阐述了 Agent 由模型、工具和编排层三大组件构成，通过认知架构实现自主规划与执行。重点分析了 ReAct、CoT 和 ToT 等推理框架，以及扩展、函数调用和数据存储三种工具类型在连接外部世界中的作用。此外，还探讨了通过上下文学习、检索增强和微调提升模型性能的策略，并介绍了如何利用 Vertex AI 平台构建生产级 Agent 应用。

嘘发布于 2025/2/6更新于 2026/6/1426 浏览

谷歌 AI Agent 白皮书：2025 年迎来 AI 智能体时代

摘要

在这份白皮书中，讨论了生成式人工智能 Agent 的基础构建块、它们的组成以及以认知架构的形式实现这些有效方法的方法。这份白皮书的一些关键要点包括：

Agent 通过利用工具访问实时信息、建议现实世界中的行动并自主规划和执行复杂任务来扩展语言模型的能力。Agent 可以利用一个或多个语言模型，决定何时以及如何在状态之间进行过渡，并使用外部工具完成任何数量的复杂任务，这些任务对于该模型来说可能难以完成甚至不可能完成。

委托人的操作核心是协调层，这是一种认知架构，它结构化推理、规划和决策，并指导其行动。各种推理技术如 ReAct、Chain-of-Thought 和 Tree-of-Thought 提供了协调层获取信息、进行内部推理并生成有根据的决定或响应的框架。

工具，例如扩展、函数和数据存储，是 Agent 与外部世界之间的钥匙，允许它们与其他系统交互并访问超出其训练数据的知识。扩展为 Agent 和外部 API 提供桥梁，使 Agent 能够执行 API 调用并检索实时信息。函数通过分工提供了更细致的控制，让开发人员可以生成可以在客户端执行的功能参数。数据存储为 Agent 提供对结构化或非结构化数据的访问权限，从而实现基于数据的应用程序。

Agent 的未来充满了令人兴奋的进步，我们才刚刚开始触及可能存在的可能性。随着工具变得越来越复杂，并且推理能力得到增强，Agent 将被赋予解决日益复杂的难题的能力。此外，'Agent 链'战略方法将继续获得动力。

什么是 Agent？

重点介绍了生成式 AI 模型能够构建的具体类型的 Agent。为了了解 Agent 的内部运作，首先让我们介绍驱动 Agent 行为、行动和决策的基础组件。这些组件的组合可以描述为认知架构，并且可以通过混合匹配这些组件来实现许多这样的架构。专注于核心功能，图 1 中显示了 Agent 的认知架构中的三个基本组件。

[图 1：Agent 架构和组件]

模型（Model）

在 Agent 的范围内，模型指的是将被用作集中决策者的语言模型（LM）。Agent 使用的模型可以是任何大小的小型/大型的任意数量的 LM，这些 LM 都可以遵循基于指令的推理和逻辑框架，如 ReAct、Chain-of-Thought 或 Tree-of-Thought。模型可以是一般用途、多模态或根据您特定 Agent 架构的需求进行微调的。

为了获得最佳生产结果，你应该利用最适合你所期望的应用程序的模型，并且最好是在使用计划用于认知架构中的工具的数据签名上进行了训练。值得注意的是，该模型通常不会与 Agent 的具体配置设置（即工具选择、编排/推理设置）一起进行培训。然而，通过向它提供展示 Agent 能力的例子来进一步细化模型也是可能的，包括 Agent 使用特定工具或各种上下文下的推理步骤实例。

工具（Tools）

基础模型，尽管其文本和图像生成令人印象深刻，但仍然受到无法与外部世界交互的限制。工具填补了这一差距，使 Agent 能够与外部数据和服务进行交互，并解锁了单一的基础模型所不能实现的一系列更广泛的操作。工具可以采取多种形式，并具有不同的复杂程度，但通常会遵循常见的 Web API 方法，如 GET、POST、PATCH 和 DELETE 等。

例如，一个工具可以更新数据库中的客户信息或获取天气数据以影响 Agent 向用户提供的旅行推荐。借助工具，Agent 可以访问并处理现实世界的资讯。这赋予他们支持更多专门系统的能力，如检索增强生成（RAG），该系统显著扩展了 Agent 在自身能力之外所能实现的可能性。我们将在下面详细讨论工具，但最重要的是要理解，工具是连接 Agent 内部能力和外部世界的桥梁，从而解锁了一种更广泛的可能。

编排层（Orchestration layer）

协调层描述了一个循环过程，它规定了 Agent 如何获取信息、进行一些内部推理，并使用这种推理来告知其下一步行动或决策。一般来说，这个循环会持续到一个 Agent 达到目标或停止点为止。

协调层的复杂性取决于执行的任务和 Agent 本身。有些循环可以是简单的计算与决策规则，而其他可能包含连锁逻辑、涉及额外的机器学习算法或其他概率推理技术。在认知架构部分我们将讨论更多关于 Agent 协调层的具体实现细节。

Agents vs. models

为了更清楚地了解 Agent 和模型之间的区别，考虑以下图表：

Models	Agents
知识仅限于他们的训练数据中可用的内容。	知识通过工具与外部系统的连接而扩展
基于用户查询的单一推理/预测。除非为模型显式实现，否则不存在会话历史或连续上下文的管理。聊天记录)	管理的会话历史 (即聊天记录) 允许基于用户查询和编排层做出的决策进行多轮推理/预测。在这种情况下，'回合'被定义为交互系统和 Agent 之间的交互。1 个传入事件/查询和 1 个 Agent 响应)

	扩展	函数调用	数据存储
执行	Agent-Side 执行	Client-Side 执行	Agent-Side 执行
用例	• 开发者希望 Agent 能够控制与 API 端点的交互 • 在利用原生预构建扩展（例如 Vertex 搜索、代码解释器等）时很有用 • 多跳规划和 API 调用（即 Agent 的下一个操作取决于前一个操作/ API 调用的输出）	• 安全或身份验证限制使 Agent 无法直接调用 API。 • 时间限制或操作顺序限制使 Agent 无法实时调用 API。（例如：批处理操作、人工审核等） • 未向互联网公开的 API，或 Google 系统无法访问的 API。	• 开发人员希望使用以下任何一种数据类型来实现检索增强生成（RAG）： • 来自预先索引的域和 URL 的网站内容 • 以 PDF、Word 文档、CSV、电子表格等格式存在的结构化数据 • 关系型/非关系型数据库 • 以 HTML、PDF、TXT 等格式存在的非结构化数据

谷歌 AI Agent 白皮书：2025 年迎来 AI 智能体时代

谷歌 AI Agent 白皮书：2025 年迎来 AI 智能体时代