谷歌 AI Agent 白皮书解析:Agent 定义与核心概念
引言
随着人工智能技术的发展,2025 年被预测为 AI Agent(智能体)爆发之年。那么,什么是 AI Agent?它与 LLM Workflow、App 或传统软件的关键区别是什么?
Google 在 2024 年 9 月发布的白皮书《Agents》对此做出了详细解答。本文基于该白皮书内容,深入探讨 Agent 的定义、架构及其工作原理。
人类与工具的依赖
人类在处理复杂的模式识别任务上表现出色,但往往依赖工具——如书籍、搜索引擎或计算器——来补充先验知识并得出结论。同样,生成式 AI 模型虽然能力强大,也需要通过工具与外部真实世界进行有效交互。
例如,模型可以利用数据库检索工具访问客户购买历史以生成购物推荐,或通过调用 API 发送电子邮件、完成金融交易。为此,模型不仅需要访问一组外部工具,还需要具备规划和执行任何任务的能力。这种推理、逻辑和访问外部信息的组合,引出了 Agent 的概念:一种超越生成式 AI 模型独立能力的程序。
1. 什么是 Agent?
顾名思义,Agent 是可以代理我们完成特定任务的智能体(应用程序)。所谓代理,意味着 Agent 可以代替人类自主地完成某些任务。
在最基本的形式中,生成式 AI Agent 可以定义为一个应用程序,它试图通过观察世界并使用其可用的工具来实现目标。
- 自主性:Agent 是自主的,可以在没有人类干预的情况下独立行动,尤其是在提供了适当的目标时。
- 主动性:Agent 可以主动采取行动来实现其目标。即使在缺乏人类明确指令集的情况下,Agent 也可以推理出为了实现最终目标下一步应该做什么。
本白皮书将重点关注生成式 AI 模型在发布时能够构建的特定类型的 Agent。
2. Agent 的核心组件
为了理解 Agent 的内部工作原理,我们需要介绍驱动其行为、行动和决策的基本组件。这些组件的组合描述了一种认知架构。
2.1 模型 (The Model)
模型是 Agent 的灵魂。如果说 Agent 是一个能够执行特定任务的机器人,大语言模型(LLM)就是它的大脑;如果说 Agent 是一台电脑,模型就是它的 CPU/GPU。
在 Agent 的范围内,模型指的是作为 Agent 过程中央决策者的语言模型(LM)。
- 灵活性:Agent 使用的模型可以是任何大小的单个或多个 LM,能够遵循基于指令的推理和逻辑框架,如 ReAct、Chain-of-Thought 或 Tree-of-Thoughts。
- 适应性:模型可以是通用的、多模态的,或根据特定 Agent 架构的需求进行微调。
- 训练优化:为了获得最佳生产结果,应利用最适合期望最终应用程序的模型。虽然模型通常不会针对 Agent 的特定配置设置(如工具选择)进行训练,但通过提供展示 Agent 能力的示例(包括使用特定工具或推理步骤的实例),可以进一步优化模型。
2.2 工具 (The Tools)
简而言之,工具是沟通 Agent 和现实世界的桥梁,是 Agent 获取现实世界信息、触发外部世界开关的接口。
尽管基础模型在文本和图像生成方面表现出色,但它们受到无法与外部世界互动的限制。工具填补了这一空白,使 Agent 能够与外部数据和服务互动,解锁超越基础模型本身能力的更广泛行动。
- 形式:工具可以采取多种形式,具有不同的复杂性深度,但通常与常见的 Web API 方法(如 GET、POST、PATCH 和 DELETE)保持一致。
- 功能:例如,工具可以更新数据库中的客户信息,或获取天气数据以影响旅行建议。
- 扩展能力:通过工具,Agent 可以访问和处理现实世界的信息。这支持了检索增强生成(RAG)等专业系统,显著扩展了 Agent 的能力。
2.3 编排层 (The Orchestration Layer)
编排实际上是在'指导'Agent 如何工作,它确保 Agent 接收信息后进行一系列推理和循环,最终实现目标。
编排层描述了一个循环过程,规定了 Agent 如何接收信息、进行内部推理,并使用该推理来指导其下一步行动或决策。


