AI Agent 架构详解:感知-决策-执行的三位一体(基于最新研究论文)

玄同 765
大语言模型 (LLM) 开发工程师 | 中国传媒大学 · 数字媒体技术(智能交互与游戏设计)
ZEEKLOG · 个人主页 | GitHub · Follow
关于作者
- 深耕领域:大语言模型开发 / RAG 知识库 / AI Agent 落地 / 模型微调
- 技术栈:Python | RAG (LangChain / Dify + Milvus) | FastAPI + Docker
- 工程能力:专注模型工程化部署、知识库构建与优化,擅长全流程解决方案
「让 AI 交互更智能,让技术落地更高效」
欢迎技术探讨与项目合作,解锁大模型与智能交互的无限可能!
AI Agent 架构详解:感知-决策-执行的三位一体
从 ReAct 到 Plan-and-Execute,从单智能体到多智能体协作,AI Agent 的核心架构始终围绕"感知-决策-执行"展开。本文基于 2024-2025 年最新研究论文,深入解析 Agent 的认知架构与实现范式。
学术会议推荐
如果您对 AI Agent、人工智能前沿技术有研究,欢迎投稿以下国际学术会议:
ICAISL 2026 - 人工智能与智慧生活国际学术会议
- 时间:2026年5月29-31日
- 地点:中国-广州 & 马来西亚
- 检索:EI Compendex, Scopus
- 征稿主题:人工智能核心技术与算法、智慧生活场景应用
ICAHN 2026 - 人工智能、人机交互与自然语言处理国际学术会议
- 时间:2026年5月22-24日
- 地点:中国-厦门
- 主办:北京信息科技大学
- 检索:EI Compendex, Scopus
- 征稿主题:人工智能、人机交互、自然语言处理
AIDF 2026 - 人工智能与数字金融国际学术会议
- 时间:2026年5月29-31日
- 地点:中国-武汉
- 出版:ACM International Conference Proceeding Series
- 检索:EI Compendex, Scopus
- 征稿主题:人工智能技术、AI在数字金融中的应用、金融科技创新
ICAIDE 2026 - 人工智能与数字伦理国际学术会议
- 时间:2026年5月22-24日
- 地点:中国-广州 & 新加坡
- 出版:IEEE(ISBN: 979-8-3315-9297-4)
- 检索:EI Compendex, Scopus, IEEE Xplore
- 征稿主题:人工智能、数字伦理、电子信息科学与技术
一、什么是 AI Agent?
如果你用过 ChatGPT,一定熟悉这样的对话模式:问一个问题,得到一个回答。这是一次性的、被动的交互。但如果你希望 AI 能帮你完成一个复杂任务,比如"帮我分析这份数据并生成报告,然后发送给相关同事",传统的 ChatBot 就无能为力了——它只能告诉你怎么做,却不能替你做。
这就是 AI Agent 出现的背景。Agent 这个词源于哲学,指的是"能够自主行动的实体"。在 AI 领域,Agent 不仅仅是回答问题,而是能够感知环境、做出决策、采取行动,像一个真正的"助手"一样帮你完成任务。
举个例子对比一下:
传统 ChatBot 的交互是这样的——用户说"帮我查一下北京明天的天气,如果下雨就提醒我带伞",ChatBot 回复"北京明天有雨,气温15-22度,建议您出门带伞",对话结束,用户需要自己记住这件事。
而 AI Agent 的交互完全不同——用户说同样的话,Agent 会调用天气 API 获取北京明天天气,判断确实有雨,然后设置一个明天早上7点的提醒,最后回复用户"已为您设置明天早上的带伞提醒"。可以看到,Agent 的核心区别在于:它不只是"说",还会"做"。
根据 arXiv 2503.12687《AI Agents: Evolution, Architecture, and Real-World Applications》的定义,一个合格的 AI Agent 应该具备四个核心特征:
- 自主性 (Autonomy):Agent 能够在没有人类持续干预的情况下独立运行。比如你让 Agent “帮我预订明天下午的会议室”,自主性好的 Agent 会自动查询空闲会议室、根据历史偏好选择、完成预订并发送确认。而自主性差的系统需要你一步步告诉它:先查会议室列表,再筛选时间,再选择房间,最后确认预订。
- 反应性 (Reactivity):Agent 能够感知环境变化并及时做出响应。环境变化可能是外部数据的变化(如股票价格波动)、用户需求的变化(如用户修改了任务要求)、或者系统状态的变化(如某个工具暂时不可用)。一个反应性好的 Agent 应该能够动态调整自己的行为,而不是死板地执行预设的流程。
- 主动性 (Proactivity):这是 Agent 区别于普通程序的关键特征。普通的程序是被动的——你触发它,它才执行。但 Agent 应该能够主动规划并采取行动来实现目标。比如你让 Agent “帮我监控某只股票,价格跌破100元时通知我”,主动性好的 Agent 不会只是被动等待,而是会主动设置监控任务,定期检查股票价格,在条件触发时主动通知你,甚至可能主动分析下跌原因并给出建议。
- 社交性 (Social Ability):Agent 能够与其他 Agent 或人类进行有效的交互和协作。在复杂任务中,单个 Agent 可能无法完成所有工作,需要多个 Agent 协作,或者需要与人类进行沟通确认。
AI Agent 系统
感知
Perception
决策
Planning
执行
Action
反思
Reflection
传统 AI 系统
输入
模型推理
输出
想象你是一个数据分析平台的产品经理,用户上传了一份销售数据想分析上季度的销售趋势。传统 AI 会这样处理:用户上传数据,AI 读取数据生成一段分析文字,用户如果想看图表需要重新提问,用户如果想导出报告需要再次提问,每次交互都是独立的,AI 不记得之前的上下文。
同样的场景,Agent 会这样处理:用户上传数据说"分析一下上季度的销售趋势",Agent 自动识别数据结构选择合适的分析方法,生成分析报告同时创建可视化图表,主动询问是否需要导出报告并推荐合适的格式,整个过程 Agent 记住了上下文可以随时调整分析方向。
二、Agent 核心架构:感知-决策-执行
根据 arXiv 2510.25445《Agentic AI: A Comprehensive Survey of Architectures》的研究,现代 Agent 架构包含四个核心模块,这四个模块就像人类的认知系统一样协同工作:
- 感知模块:相当于人的"眼睛和耳朵"
- 决策模块:相当于人的"大脑"
- 记忆模块:相当于人的"记忆系统"
- 执行模块:相当于人的"手脚"
Agent 认知架构
执行模块 Action
工具调用
环境交互
结果反馈
感知模块 Perception
自然语言理解
多模态感知
环境状态检测
决策模块 Planning & Reasoning
任务分解
计划生成
推理链构建
记忆模块 Memory
工作记忆
情景记忆
语义记忆
感知模块:Agent 的"眼睛和耳朵"
感知模块是 Agent 与外部世界的接口,核心任务是将外部的各种信息转化为 Agent 能够理解和处理的内部表示。
根据 arXiv 2602.01644《From Perception to Action: Spatial AI Agents and World Models》的研究,Agent 的感知可以分为三种类型:
- 自然语言感知:最常见的类型,适用于大多数文本交互场景。当用户输入一段文字时,Agent 需要进行意图识别、实体抽取、情感分析和上下文理解。比如用户说"帮我订一张明天下午去上海的机票",Agent 需要识别出意图是预订机票,实体包括时间(明天下午)和目的地(上海),隐含信息是出发地需要从用户历史或当前定位推断。
- 多模态感知:用于处理图像、音频、视频等非文本信息。这在图像理解、语音识别、视频分析、传感器数据处理等场景特别重要。比如机器人 Agent 需要处理摄像头、雷达等传感器数据。
- 环境状态感知:对于需要在特定环境中运行的 Agent(如机器人、游戏 AI)至关重要,包括系统状态、外部环境和任务进度的感知。
在实际开发中,感知模块的设计需要注意几个问题:
首先是准确性和响应速度的平衡。过于复杂的感知模型可能准确但响应慢,影响用户体验;过于简单的模型可能快速但容易出错。建议对于关键决策使用更准确的模型,对于简单交互可以使用轻量级模型。
其次是错误处理和容错。感知模块是 Agent 的入口,如果感知出错后续所有决策都会受影响,因此需要实现置信度评估,当感知不确定时主动询问用户。
最后是多模态融合。当 Agent 支持多种输入模态时,需要考虑时间同步、权重分配和冲突处理。
决策模块:Agent 的"大脑"
决策模块是 Agent 的核心,负责将目标分解为可执行的子任务并生成行动计划。这是 Agent 智能的体现,也是不同 Agent 架构的主要区别所在。
目前主流的 Agent 决策架构有三种:ReAct、Plan-and-Execute 和 Pre-Act。
ReAct:思考-行动-观察的循环
ReAct(Reasoning + Acting)是最经典的 Agent 架构,由 Yao 等人在 2022 年提出(arXiv 2210.03629)。核心思想很简单:交替进行思考和行动,每一步行动后观察结果,再决定下一步。
一个典型的 ReAct 执行流程是这样的:
问题:北京和上海的人口总和是多少? Thought 1: 我需要先查询北京的人口 Action 1: search("北京人口") Observation 1: 北京常住人口约2189万人 Thought 2: 现在我需要查询上海的人口 Action 2: search("上海人口") Observation 2: 上海常住人口约2487万人 Thought 3: 现在我可以计算总和了 Action 3: calculator("2189 + 2487") Observation 3: 4676 Final Answer: 北京和上海的常住人口总和约为4676万人 ReAct 的优点是简单直观易于理解和实现,实时响应环境变化适应性强,每一步都有明确的推理过程可解释性好。缺点是缺乏长期规划容易陷入局部最优,对于复杂任务可能需要很多步骤才能完成,每一步都调用 LLM 成本较高。
Plan-and-Execute:先规划后执行
Plan-and-Execute 架构将决策分为两个阶段:规划阶段生成完整计划,执行阶段按计划执行。
一个典型的执行流程是:
目标:分析销售数据并生成报告 【规划阶段】 1. 读取销售数据文件 2. 数据清洗和预处理 3. 计算关键指标(总销售额、增长率等) 4. 生成可视化图表 5. 撰写分析报告 6. 导出报告文件 【执行阶段】 逐步执行每个步骤... Plan-and-Execute 的优点是适合长程任务有明确的执行路径,计划可以复用提高效率,减少认知负载不需要每步都重新思考。缺点是计划可能不适应环境变化,如果规划出错整个执行都会失败,需要设计两个模型(Planner 和 Executor)。
Pre-Act:规划与推理的结合
Pre-Act(arXiv 2505.09970)是较新的架构,试图结合 ReAct 的灵活性和 Plan-and-Execute 的结构性。核心思想是在执行前生成多步计划,但每步计划包含详细推理,执行后动态更新计划。
目标:研究 AI Agent 的最新进展 Step 1: 搜索近期 AI Agent 相关论文 Reasoning: 需要先了解学术界的最新研究 Expected: 获得 5-10 篇相关论文 Step 2: 阅读并总结论文要点 Reasoning: 提取关键信息用于后续分析 Expected: 每篇论文的核心贡献 Step 3: 整理技术趋势 Reasoning: 从论文中归纳共性趋势 Expected: 3-5 个主要技术方向 Pre-Act 的优点是结合了两种架构的优点,支持动态调整适应性强,推理过程清晰可解释性好。缺点是实现复杂度较高,计算成本较高,需要更多的工程实践。
三种架构对比
| 维度 | ReAct | Plan-and-Execute | Pre-Act |
|---|---|---|---|
| 规划深度 | 单步 | 多步 | 多步+推理 |
| 适应性 | 高 | 低 | 中 |
| 长程任务 | 弱 | 强 | 强 |
| 计算成本 | 低 | 中 | 高 |
| 可解释性 | 高 | 中 | 高 |
| 适用场景 | 简单交互 | 固定流程 | 复杂决策 |
如何选择决策架构?
- 选择 ReAct:任务相对简单步骤较少,需要实时响应用户,环境变化频繁需要灵活调整。比如问答系统、简单搜索、客服机器人。
- 选择 Plan-and-Execute:任务流程相对固定,需要处理长程任务,可以预先规划完整流程。比如数据分析流程、报告生成、工作流自动化。
- 选择 Pre-Act:任务复杂需要深度推理,需要平衡结构性和灵活性,对可解释性要求高。比如研究助手、复杂决策支持、多步骤分析。
执行模块:Agent 的"手脚"
执行模块负责将决策转化为具体行动,这是 Agent 与外部世界交互的桥梁,也是 Agent "能做事"的关键。执行模块的核心是工具调用,Agent 通过调用各种工具来完成具体任务。
一个工具通常包含以下要素:
- 名称:工具的唯一标识
- 描述:工具的功能说明,帮助 Agent 理解何时使用
- 参数模式:工具接受的参数类型和格式
- 执行函数:实际执行操作的代码
常见的工具类型:
| 工具类型 | 功能 | 示例 |
|---|---|---|
| 搜索工具 | 搜索网络信息 | Google Search, Bing Search |
| 数据工具 | 处理和分析数据 | Pandas, SQL 查询 |
| 代码工具 | 执行代码 | Python 解释器, Shell |
| 文件工具 | 读写文件 | 文件上传下载、格式转换 |
| 通信工具 | 发送消息 | 邮件、短信、通知 |
| API 工具 | 调用外部服务 | 天气 API, 地图 API |
工具调用的流程是:Agent 决定使用某个工具 → 构造工具调用参数 → 执行工具 → 获取执行结果 → 将结果反馈给决策模块。
在实际开发中,工具的设计直接影响 Agent 的能力:
- 工具粒度要适中:太粗粒度的工具难以组合使用,太细粒度的工具会增加调用次数。不好的设计是一个工具做所有事情比如
analyze_everything(data),好的设计是分成load_data、clean_data、analyze_data、visualize_data、export_report等可组合的工具。 - 工具描述要清晰:这是 Agent 理解工具用途的关键,描述应该包含工具的功能、适用场景、参数说明和返回值说明。
- 错误处理要完善:工具调用可能失败,需要参数验证、异常捕获、错误返回和重试机制。
- 安全性很重要:工具调用涉及外部操作,需要权限控制、输入过滤、资源限制和日志记录。
记忆模块:Agent 的"记忆系统"
记忆模块让 Agent 能够保持上下文连续性,积累经验,从历史中学习。根据 Microsoft Sam Schillace (2024) 的观点:“要实现自主性,必须在一系列行动中保持上下文连续性”。
Agent 的记忆系统通常分为三种类型,类比人类的记忆系统:
- 工作记忆 (Working Memory):存储当前任务的相关信息,类似于人类的"短期记忆"。特点是容量有限(通常 5-10 个信息块)、访问速度快、任务结束后清空。用途包括存储当前对话上下文、保存中间计算结果、记录当前任务状态。
- 情景记忆 (Episodic Memory):存储历史交互记录,类似于人类的"事件记忆"。特点是按时间顺序组织、支持时间范围查询、长期存储。用途包括记录用户历史请求、保存任务执行历史、支持用户行为分析。
- 语义记忆 (Semantic Memory):存储概念知识和事实,类似于人类的"知识库"。特点是按概念组织、支持语义检索、长期存储。用途包括存储领域知识、保存用户偏好、积累经验知识。
记忆的价值在于能够被有效检索和使用。常见的检索策略:
- 基于时间的检索:检索最近的记忆
- 基于重要性的检索:检索最重要的记忆
- 基于相关性的检索:使用向量相似度计算
- 混合检索:结合多种策略
随着使用时间增长,记忆会越来越多,需要有效的管理策略:遗忘机制定期清理不重要的记忆,记忆压缩将多个相关记忆合并为摘要,记忆优先级为记忆分配优先级,记忆更新当新信息与旧记忆冲突时更新旧记忆。
三、完整 Agent 实现示例
以 ReAct Agent 为例展示一个完整的实现,这里只展示核心逻辑,完整代码可以参考开源项目如 LangChain 的实现。
classReActAgent:defrun(self, query:str)->str: trajectory =[]# 记录执行轨迹for iteration inrange(self.max_iterations):# 1. 思考:决定下一步做什么 thought = self.think(query, trajectory)# 2. 检查是否完成if thought.is_final:return thought.answer # 3. 执行动作 result = self.execute(thought.action, thought.action_input)# 4. 记录观察 trajectory.append({"thought": thought.reasoning,"action": thought.action,"observation": result })return"达到最大迭代次数,未能完成任务"关键实现细节:
- Prompt 设计:引导模型按照 Thought-Action-Observation 的格式输出
- 输出解析:从模型输出中提取 Thought、Action、Action Input 等字段
- 工具选择:根据 Action 名称选择对应的工具执行
- 迭代控制:设置最大迭代次数防止无限循环
Plan-and-Execute Agent 的实现分为两个阶段:
classPlanAndExecuteAgent:defrun(self, goal:str)->str:# 1. 生成计划 plan = self.planner.plan(goal)# 2. 执行计划 results =[]for step in plan.steps: result = self.executor.execute(step) results.append(result)# 可选:根据执行结果调整后续计划if self.need_replan(result): plan = self.replan(plan, result)# 3. 综合结果return self.synthesize(goal, results)关键实现细节:
- Planner 和 Executor 分离:可以使用不同的模型
- 计划表示:包含步骤描述、依赖关系、预期输出等
- 动态调整:执行过程中根据结果调整计划
在实际开发 Agent 时,有几点经验值得参考:
- 不要一开始就追求复杂的架构,先实现一个简单的 ReAct Agent 验证核心流程,再逐步增加功能。
- Agent 的能力很大程度上取决于工具的设计,花时间设计好工具接口比优化 Agent 架构更重要。
- Agent 执行过程中可能遇到各种错误:工具调用失败、模型输出格式错误、网络超时等,完善的错误处理是 Agent 可靠性的保障。
- 记录 Agent 的执行过程,包括每一步的决策、工具调用、结果等,这对于调试和优化至关重要。
- 建立用户反馈机制,让用户能够纠正 Agent 的错误决策,这不仅能提升用户体验,还能收集训练数据。
四、架构选型指南
简单单步
中等复杂
高度复杂
是
否
架构选型
任务复杂度?
ReAct
是否需要动态调整?
Pre-Act
Plan-and-Execute
示例:问答、简单搜索、客服
示例:数据分析、报告生成、工作流
示例:研究助手、复杂决策、多步骤分析
| 场景 | 推荐架构 | 记忆类型 | 工具复杂度 | 典型应用 |
|---|---|---|---|---|
| 简单问答 | ReAct | 工作记忆 | 低 | 智能客服、FAQ |
| 数据分析 | Plan-and-Execute | 工作记忆+情景 | 中 | BI 报告、数据洞察 |
| 研究助手 | Pre-Act | 全部 | 高 | 学术研究、市场调研 |
| 代码助手 | ReAct + 反思 | 工作记忆+语义 | 高 | 代码生成、Bug 修复 |
| 流程自动化 | Plan-and-Execute | 情景记忆 | 中 | RPA、工作流引擎 |
开发中常见的问题:
- Agent 容易陷入循环怎么办? 设置最大迭代次数并实现循环检测机制,当检测到 Agent 在重复相同的动作时主动干预。
- Agent 的决策不可控怎么办? 在 Prompt 中明确约束,实现人工确认机制,记录决策过程支持事后审计。
- 工具调用失败怎么处理? 实现重试机制,提供备选工具,当工具不可用时优雅降级。
- 如何评估 Agent 的效果? 关注任务完成率、平均步骤数、用户满意度、成本效益比。
五、最佳实践
- 感知优先:确保 Agent 能准确理解环境和用户意图,感知是所有后续决策的基础,感知出错会导致连锁错误。
- 渐进规划:从简单架构开始,根据实际需求增加复杂度,不要过度设计,先用起来再优化。
- 记忆设计:根据任务特点选择合适的记忆类型。短对话用工作记忆即可,长对话需要情景记忆,知识密集型需要语义记忆。
- 工具抽象:设计清晰、可组合的工具接口,好的工具设计能让 Agent 的能力大幅提升。
- 错误处理:实现健壮的错误恢复机制,Agent 在真实环境中运行,必须能够处理各种异常情况。
技术选型方面:
- 框架:LangChain、AutoGen、CrewAI 等成熟框架可以加速开发
- 模型:根据任务复杂度选择,简单任务用小模型,复杂任务用大模型
- 存储:向量数据库用于语义记忆,关系数据库用于结构化数据
工程实践方面:
- 对 Prompt 和工具定义进行版本控制
- 建立测试用例库覆盖常见场景和边界情况
- 实时监控 Agent 的执行状态和性能指标
- 详细记录执行过程便于调试和优化
六、总结
AI Agent 的核心在于感知-决策-执行的闭环:
- 感知:理解环境提取关键信息,是 Agent 的"眼睛和耳朵"
- 决策:规划行动分解任务,是 Agent 的"大脑"
- 执行:调用工具与环境交互,是 Agent 的"手脚"
- 记忆:保持上下文积累经验,是 Agent 的"记忆系统"
架构选择上,ReAct 简单灵活适合快速响应的简单任务,Plan-and-Execute 结构清晰适合流程固定的长程任务,Pre-Act 平衡两者适合需要深度推理的复杂任务。
核心观点是:没有最优架构,只有最适合场景的架构。从简单开始,根据实际需求逐步演进。
未来展望:随着多模态大模型的发展,Agent 的感知能力将更加强大;随着推理模型的进步,Agent 的决策能力将更加智能;随着工具生态的丰富,Agent 的执行能力将更加强大。AI Agent 正在从"能对话"走向"能做事",这将是人工智能应用的下一个重要方向。
参考文献:
- Yao, S., et al. (2022). “ReAct: Synergizing Reasoning and Acting in Language Models.” arXiv:2210.03629
- Erdogan, et al. (2025). “Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks.” arXiv:2503.09572
- Pre-Act Paper (2025). “Multi-Step Planning and Reasoning Improves Acting in LLM Agents.” arXiv:2505.09970
- “AI Agents: Evolution, Architecture, and Real-World Applications.” arXiv:2503.12687
- “Agentic AI: A Comprehensive Survey of Architectures.” arXiv:2510.25445
- WEF (2025). “AI Agents in Action: Foundations for Evaluation and Governance”