谷歌 AI Agent 白皮书解析:Agent 定义与核心概念
本文基于谷歌 AI Agent 白皮书,深入解析了 AI Agent 的定义、核心架构及工作原理。文章阐述了 Agent 作为自主程序如何通过模型、工具与编排层协同工作,区别于传统 LLM Workflow。重点介绍了认知架构中的三大组件,并详细对比了 ReAct、链式推理(CoT)与思维树(ToT)等提示工程框架在 Agent 决策中的应用场景与逻辑流程,为构建具备规划与执行能力的智能体提供理论指导。

本文基于谷歌 AI Agent 白皮书,深入解析了 AI Agent 的定义、核心架构及工作原理。文章阐述了 Agent 作为自主程序如何通过模型、工具与编排层协同工作,区别于传统 LLM Workflow。重点介绍了认知架构中的三大组件,并详细对比了 ReAct、链式推理(CoT)与思维树(ToT)等提示工程框架在 Agent 决策中的应用场景与逻辑流程,为构建具备规划与执行能力的智能体提供理论指导。

随着人工智能技术的发展,2025 年被预测为 AI Agent(智能体)爆发之年。那么,什么是 AI Agent?它与 LLM Workflow、App 或传统软件的关键区别是什么?
Google 在 2024 年 9 月发布的白皮书《Agents》对此做出了详细解答。本文基于该白皮书内容,深入探讨 Agent 的定义、架构及其工作原理。
人类在处理复杂的模式识别任务上表现出色,但往往依赖工具——如书籍、搜索引擎或计算器——来补充先验知识并得出结论。同样,生成式 AI 模型虽然能力强大,也需要通过工具与外部真实世界进行有效交互。
例如,模型可以利用数据库检索工具访问客户购买历史以生成购物推荐,或通过调用 API 发送电子邮件、完成金融交易。为此,模型不仅需要访问一组外部工具,还需要具备规划和执行任何任务的能力。这种推理、逻辑和访问外部信息的组合,引出了 Agent 的概念:一种超越生成式 AI 模型独立能力的程序。
顾名思义,Agent 是可以代理我们完成特定任务的智能体(应用程序)。所谓代理,意味着 Agent 可以代替人类自主地完成某些任务。
在最基本的形式中,生成式 AI Agent 可以定义为一个应用程序,它试图通过观察世界并使用其可用的工具来实现目标。
本白皮书将重点关注生成式 AI 模型在发布时能够构建的特定类型的 Agent。
为了理解 Agent 的内部工作原理,我们需要介绍驱动其行为、行动和决策的基本组件。这些组件的组合描述了一种认知架构。
模型是 Agent 的灵魂。如果说 Agent 是一个能够执行特定任务的机器人,大语言模型(LLM)就是它的大脑;如果说 Agent 是一台电脑,模型就是它的 CPU/GPU。
在 Agent 的范围内,模型指的是作为 Agent 过程中央决策者的语言模型(LM)。
简而言之,工具是沟通 Agent 和现实世界的桥梁,是 Agent 获取现实世界信息、触发外部世界开关的接口。
尽管基础模型在文本和图像生成方面表现出色,但它们受到无法与外部世界互动的限制。工具填补了这一空白,使 Agent 能够与外部数据和服务互动,解锁超越基础模型本身能力的更广泛行动。
编排实际上是在'指导'Agent 如何工作,它确保 Agent 接收信息后进行一系列推理和循环,最终实现目标。
编排层描述了一个循环过程,规定了 Agent 如何接收信息、进行内部推理,并使用该推理来指导其下一步行动或决策。
为了更清楚地理解代理与模型之间的区别,请参考以下对比维度:
| 维度 | 基础模型 (Model) | 智能体 (Agent) |
|---|---|---|
| 核心能力 | 生成内容、回答问题 | 规划、执行任务、使用工具 |
| 交互方式 | 被动响应提示 | 主动观察环境、调用工具 |
| 自主性 | 低,需明确指令 | 高,可自主决策下一步 |
| 记忆与状态 | 上下文窗口有限 | 维护长期记忆、状态管理 |
| 目标导向 | 无明确目标 | 有明确目标并致力于达成 |
把 Agent 想象成一个'有脑子'的自动化设备,大语言模型就是该设备的'大脑'。
想象在一个繁忙的厨房里,一位厨师正在工作。他们的目标是为顾客制作美味的菜肴,这涉及计划、执行和调整的循环过程。
这种信息输入、计划、执行和调整的循环,描述了厨师为达成目标所采用的独特认知架构。Agents 也可以利用认知架构,通过迭代处理信息、做出明智决策,并根据先前的输出不断优化下一步行动。
在 Agents 认知架构的核心,存在一个协调层,负责维护记忆、状态、推理和规划。它利用迅速发展的提示工程及其相关框架来指导推理和规划。
关于提示工程框架和语言模型任务规划的研究正在快速推进,以下是几种流行的框架和推理技术:
ReAct 是一种提示工程框架,为语言模型提供了一种推理过程策略,用于对用户查询进行推理并采取行动。
CoT 是一种提示工程框架,通过中间步骤实现推理能力。
ToT 是一种适用于探索或前瞻性任务的提示工程框架。
Agent 响应的质量直接取决于模型对这些各种任务进行推理和操作的能力,包括选择正确工具的能力,以及这些工具的定义有多完善。就像厨师用新鲜食材精心制作菜品一样,代理依赖于合理的推理和可靠的信息来提供最佳结果。
未来,随着工具生态的丰富和推理框架的优化,AI Agent 将在更多垂直领域实现落地,从简单的信息查询到复杂的业务流程自动化。开发者在构建 Agent 时,应重点关注模型选型、工具接口的标准化以及编排逻辑的鲁棒性,以确保 Agent 在实际应用场景中的稳定性和有效性。
通过深入理解 Agent 的认知架构和推理机制,我们可以更好地设计下一代智能应用,释放生成式 AI 的真正潜力。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online