谷歌 AI Agent 白皮书解析：Agent 定义与核心概念

基于谷歌 AI Agent 白皮书，深入解析了 AI Agent 的定义、核心架构及工作原理。文章阐述了 Agent 作为自主程序如何通过模型、工具与编排层协同工作，区别于传统 LLM Workflow。重点介绍了认知架构中的三大组件，并详细对比了 ReAct、链式推理（CoT）与思维树（ToT）等提示工程框架在 Agent 决策中的应用场景与逻辑流程，为构建具备规划与执行能力的智能体提供理论指导。

GitMaster发布于 2025/2/6更新于 2026/7/2139 浏览

谷歌 AI Agent 白皮书解析：Agent 定义与核心概念

引言

随着人工智能技术的发展，2025 年被预测为 AI Agent（智能体）爆发之年。那么，什么是 AI Agent？它与 LLM Workflow、App 或传统软件的关键区别是什么？

Google 在 2024 年 9 月发布的白皮书《Agents》对此做出了详细解答。本文基于该白皮书内容，深入探讨 Agent 的定义、架构及其工作原理。

人类与工具的依赖

人类在处理复杂的模式识别任务上表现出色，但往往依赖工具——如书籍、搜索引擎或计算器——来补充先验知识并得出结论。同样，生成式 AI 模型虽然能力强大，也需要通过工具与外部真实世界进行有效交互。

例如，模型可以利用数据库检索工具访问客户购买历史以生成购物推荐，或通过调用 API 发送电子邮件、完成金融交易。为此，模型不仅需要访问一组外部工具，还需要具备规划和执行任何任务的能力。这种推理、逻辑和访问外部信息的组合，引出了 Agent 的概念：一种超越生成式 AI 模型独立能力的程序。

1. 什么是 Agent？

顾名思义，Agent 是可以代理我们完成特定任务的智能体（应用程序）。所谓代理，意味着 Agent 可以代替人类自主地完成某些任务。

在最基本的形式中，生成式 AI Agent 可以定义为一个应用程序，它试图通过观察世界并使用其可用的工具来实现目标。

自主性：Agent 是自主的，可以在没有人类干预的情况下独立行动，尤其是在提供了适当的目标时。
主动性：Agent 可以主动采取行动来实现其目标。即使在缺乏人类明确指令集的情况下，Agent 也可以推理出为了实现最终目标下一步应该做什么。

本白皮书将重点关注生成式 AI 模型在发布时能够构建的特定类型的 Agent。

2. Agent 的核心组件

为了理解 Agent 的内部工作原理，我们需要介绍驱动其行为、行动和决策的基本组件。这些组件的组合描述了一种认知架构。

图 1. 通用代理架构及组件

2.1 模型 (The Model)

模型是 Agent 的灵魂。如果说 Agent 是一个能够执行特定任务的机器人，大语言模型（LLM）就是它的大脑；如果说 Agent 是一台电脑，模型就是它的 CPU/GPU。

在 Agent 的范围内，模型指的是作为 Agent 过程中央决策者的语言模型（LM）。

灵活性：Agent 使用的模型可以是任何大小的单个或多个 LM，能够遵循基于指令的推理和逻辑框架，如 ReAct、Chain-of-Thought 或 Tree-of-Thoughts。
适应性：模型可以是通用的、多模态的，或根据特定 Agent 架构的需求进行微调。
训练优化：为了获得最佳生产结果，应利用最适合期望最终应用程序的模型。虽然模型通常不会针对 Agent 的特定配置设置（如工具选择）进行训练，但通过提供展示 Agent 能力的示例（包括使用特定工具或推理步骤的实例），可以进一步优化模型。

2.2 工具 (The Tools)

简而言之，工具是沟通 Agent 和现实世界的桥梁，是 Agent 获取现实世界信息、触发外部世界开关的接口。

尽管基础模型在文本和图像生成方面表现出色，但它们受到无法与外部世界互动的限制。工具填补了这一空白，使 Agent 能够与外部数据和服务互动，解锁超越基础模型本身能力的更广泛行动。

形式：工具可以采取多种形式，具有不同的复杂性深度，但通常与常见的 Web API 方法（如 GET、POST、PATCH 和 DELETE）保持一致。
功能：例如，工具可以更新数据库中的客户信息，或获取天气数据以影响旅行建议。
扩展能力：通过工具，Agent 可以访问和处理现实世界的信息。这支持了检索增强生成（RAG）等专业系统，显著扩展了 Agent 的能力。

2.3 编排层 (The Orchestration Layer)

编排实际上是在'指导'Agent 如何工作，它确保 Agent 接收信息后进行一系列推理和循环，最终实现目标。

编排层描述了一个循环过程，规定了 Agent 如何接收信息、进行内部推理，并使用该推理来指导其下一步行动或决策。

维度	基础模型 (Model)	智能体 (Agent)
核心能力	生成内容、回答问题	规划、执行任务、使用工具
交互方式	被动响应提示	主动观察环境、调用工具
自主性	低，需明确指令	高，可自主决策下一步
记忆与状态	上下文窗口有限	维护长期记忆、状态管理
目标导向	无明确目标	有明确目标并致力于达成

谷歌 AI Agent 白皮书解析：Agent 定义与核心概念

谷歌 AI Agent 白皮书解析：Agent 定义与核心概念

引言

人类与工具的依赖

1. 什么是 Agent？

2. Agent 的核心组件

2.1 模型 (The Model)

2.2 工具 (The Tools)

2.3 编排层 (The Orchestration Layer)

更多推荐文章

相关免费在线工具

3. Agent 与模型的对比

4. 认知架构：Agent 如何运作

4.1 厨师类比

4.2 协调层

5. 主流推理框架与技术

5.1 ReAct (Reasoning + Acting)

5.2 链式推理 (Chain-of-Thought, CoT)

5.3 思维树 (Tree-of-Thoughts, ToT)

6. 总结与展望

更多推荐文章

相关免费在线工具

谷歌 AI Agent 白皮书解析：Agent 定义与核心概念

谷歌 AI Agent 白皮书解析：Agent 定义与核心概念

引言

人类与工具的依赖

1. 什么是 Agent？

2. Agent 的核心组件

2.1 模型 (The Model)

2.2 工具 (The Tools)

2.3 编排层 (The Orchestration Layer)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. Agent 与模型的对比

4. 认知架构：Agent 如何运作

4.1 厨师类比

4.2 协调层

5. 主流推理框架与技术

5.1 ReAct (Reasoning + Acting)

5.2 链式推理 (Chain-of-Thought, CoT)

5.3 思维树 (Tree-of-Thoughts, ToT)

6. 总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具