AI Agent 架构详解：感知-决策-执行的三位一体（基于最新研究论文）

Ne0inhk

15 Mar 2026 — 22 min read

玄同 765

大语言模型 (LLM) 开发工程师 | 中国传媒大学 · 数字媒体技术（智能交互与游戏设计）

ZEEKLOG · 个人主页 | GitHub · Follow

关于作者

深耕领域：大语言模型开发 / RAG 知识库 / AI Agent 落地 / 模型微调
技术栈：Python | RAG (LangChain / Dify + Milvus) | FastAPI + Docker
工程能力：专注模型工程化部署、知识库构建与优化，擅长全流程解决方案

「让 AI 交互更智能，让技术落地更高效」
欢迎技术探讨与项目合作，解锁大模型与智能交互的无限可能！

AI Agent 架构详解：感知-决策-执行的三位一体

从 ReAct 到 Plan-and-Execute，从单智能体到多智能体协作，AI Agent 的核心架构始终围绕"感知-决策-执行"展开。本文基于 2024-2025 年最新研究论文，深入解析 Agent 的认知架构与实现范式。

学术会议推荐

如果您对 AI Agent、人工智能前沿技术有研究，欢迎投稿以下国际学术会议：

ICAISL 2026 - 人工智能与智慧生活国际学术会议

时间：2026年5月29-31日
地点：中国-广州 & 马来西亚
检索：EI Compendex, Scopus
征稿主题：人工智能核心技术与算法、智慧生活场景应用

ICAHN 2026 - 人工智能、人机交互与自然语言处理国际学术会议

时间：2026年5月22-24日
地点：中国-厦门
主办：北京信息科技大学
检索：EI Compendex, Scopus
征稿主题：人工智能、人机交互、自然语言处理

AIDF 2026 - 人工智能与数字金融国际学术会议

时间：2026年5月29-31日
地点：中国-武汉
出版：ACM International Conference Proceeding Series
检索：EI Compendex, Scopus
征稿主题：人工智能技术、AI在数字金融中的应用、金融科技创新

ICAIDE 2026 - 人工智能与数字伦理国际学术会议

时间：2026年5月22-24日
地点：中国-广州 & 新加坡
出版：IEEE（ISBN: 979-8-3315-9297-4）
检索：EI Compendex, Scopus, IEEE Xplore
征稿主题：人工智能、数字伦理、电子信息科学与技术

一、什么是 AI Agent？

如果你用过 ChatGPT，一定熟悉这样的对话模式：问一个问题，得到一个回答。这是一次性的、被动的交互。但如果你希望 AI 能帮你完成一个复杂任务，比如"帮我分析这份数据并生成报告，然后发送给相关同事"，传统的 ChatBot 就无能为力了——它只能告诉你怎么做，却不能替你做。

这就是 AI Agent 出现的背景。Agent 这个词源于哲学，指的是"能够自主行动的实体"。在 AI 领域，Agent 不仅仅是回答问题，而是能够感知环境、做出决策、采取行动，像一个真正的"助手"一样帮你完成任务。

举个例子对比一下：

传统 ChatBot 的交互是这样的——用户说"帮我查一下北京明天的天气，如果下雨就提醒我带伞"，ChatBot 回复"北京明天有雨，气温15-22度，建议您出门带伞"，对话结束，用户需要自己记住这件事。

而 AI Agent 的交互完全不同——用户说同样的话，Agent 会调用天气 API 获取北京明天天气，判断确实有雨，然后设置一个明天早上7点的提醒，最后回复用户"已为您设置明天早上的带伞提醒"。可以看到，Agent 的核心区别在于：它不只是"说"，还会"做"。

根据 arXiv 2503.12687《AI Agents: Evolution, Architecture, and Real-World Applications》的定义，一个合格的 AI Agent 应该具备四个核心特征：

自主性 (Autonomy)：Agent 能够在没有人类持续干预的情况下独立运行。比如你让 Agent “帮我预订明天下午的会议室”，自主性好的 Agent 会自动查询空闲会议室、根据历史偏好选择、完成预订并发送确认。而自主性差的系统需要你一步步告诉它：先查会议室列表，再筛选时间，再选择房间，最后确认预订。
反应性 (Reactivity)：Agent 能够感知环境变化并及时做出响应。环境变化可能是外部数据的变化（如股票价格波动）、用户需求的变化（如用户修改了任务要求）、或者系统状态的变化（如某个工具暂时不可用）。一个反应性好的 Agent 应该能够动态调整自己的行为，而不是死板地执行预设的流程。
主动性 (Proactivity)：这是 Agent 区别于普通程序的关键特征。普通的程序是被动的——你触发它，它才执行。但 Agent 应该能够主动规划并采取行动来实现目标。比如你让 Agent “帮我监控某只股票，价格跌破100元时通知我”，主动性好的 Agent 不会只是被动等待，而是会主动设置监控任务，定期检查股票价格，在条件触发时主动通知你，甚至可能主动分析下跌原因并给出建议。
社交性 (Social Ability)：Agent 能够与其他 Agent 或人类进行有效的交互和协作。在复杂任务中，单个 Agent 可能无法完成所有工作，需要多个 Agent 协作，或者需要与人类进行沟通确认。

AI Agent 系统

感知
Perception

决策
Planning

执行
Action

反思
Reflection

传统 AI 系统

输入

模型推理

输出

想象你是一个数据分析平台的产品经理，用户上传了一份销售数据想分析上季度的销售趋势。传统 AI 会这样处理：用户上传数据，AI 读取数据生成一段分析文字，用户如果想看图表需要重新提问，用户如果想导出报告需要再次提问，每次交互都是独立的，AI 不记得之前的上下文。

同样的场景，Agent 会这样处理：用户上传数据说"分析一下上季度的销售趋势"，Agent 自动识别数据结构选择合适的分析方法，生成分析报告同时创建可视化图表，主动询问是否需要导出报告并推荐合适的格式，整个过程 Agent 记住了上下文可以随时调整分析方向。

二、Agent 核心架构：感知-决策-执行

根据 arXiv 2510.25445《Agentic AI: A Comprehensive Survey of Architectures》的研究，现代 Agent 架构包含四个核心模块，这四个模块就像人类的认知系统一样协同工作：

感知模块：相当于人的"眼睛和耳朵"
决策模块：相当于人的"大脑"
记忆模块：相当于人的"记忆系统"
执行模块：相当于人的"手脚"

Agent 认知架构

执行模块 Action

工具调用

环境交互

结果反馈

感知模块 Perception

自然语言理解

多模态感知

环境状态检测

决策模块 Planning & Reasoning

任务分解

计划生成

推理链构建

记忆模块 Memory

工作记忆

情景记忆

语义记忆

感知模块：Agent 的"眼睛和耳朵"

感知模块是 Agent 与外部世界的接口，核心任务是将外部的各种信息转化为 Agent 能够理解和处理的内部表示。

根据 arXiv 2602.01644《From Perception to Action: Spatial AI Agents and World Models》的研究，Agent 的感知可以分为三种类型：

自然语言感知：最常见的类型，适用于大多数文本交互场景。当用户输入一段文字时，Agent 需要进行意图识别、实体抽取、情感分析和上下文理解。比如用户说"帮我订一张明天下午去上海的机票"，Agent 需要识别出意图是预订机票，实体包括时间（明天下午）和目的地（上海），隐含信息是出发地需要从用户历史或当前定位推断。
多模态感知：用于处理图像、音频、视频等非文本信息。这在图像理解、语音识别、视频分析、传感器数据处理等场景特别重要。比如机器人 Agent 需要处理摄像头、雷达等传感器数据。
环境状态感知：对于需要在特定环境中运行的 Agent（如机器人、游戏 AI）至关重要，包括系统状态、外部环境和任务进度的感知。

在实际开发中，感知模块的设计需要注意几个问题：

首先是准确性和响应速度的平衡。过于复杂的感知模型可能准确但响应慢，影响用户体验；过于简单的模型可能快速但容易出错。建议对于关键决策使用更准确的模型，对于简单交互可以使用轻量级模型。

其次是错误处理和容错。感知模块是 Agent 的入口，如果感知出错后续所有决策都会受影响，因此需要实现置信度评估，当感知不确定时主动询问用户。

最后是多模态融合。当 Agent 支持多种输入模态时，需要考虑时间同步、权重分配和冲突处理。

决策模块：Agent 的"大脑"

决策模块是 Agent 的核心，负责将目标分解为可执行的子任务并生成行动计划。这是 Agent 智能的体现，也是不同 Agent 架构的主要区别所在。

目前主流的 Agent 决策架构有三种：ReAct、Plan-and-Execute 和 Pre-Act。

ReAct：思考-行动-观察的循环

ReAct（Reasoning + Acting）是最经典的 Agent 架构，由 Yao 等人在 2022 年提出（arXiv 2210.03629）。核心思想很简单：交替进行思考和行动，每一步行动后观察结果，再决定下一步。

一个典型的 ReAct 执行流程是这样的：

问题：北京和上海的人口总和是多少？ Thought 1: 我需要先查询北京的人口 Action 1: search("北京人口") Observation 1: 北京常住人口约2189万人 Thought 2: 现在我需要查询上海的人口 Action 2: search("上海人口") Observation 2: 上海常住人口约2487万人 Thought 3: 现在我可以计算总和了 Action 3: calculator("2189 + 2487") Observation 3: 4676 Final Answer: 北京和上海的常住人口总和约为4676万人

ReAct 的优点是简单直观易于理解和实现，实时响应环境变化适应性强，每一步都有明确的推理过程可解释性好。缺点是缺乏长期规划容易陷入局部最优，对于复杂任务可能需要很多步骤才能完成，每一步都调用 LLM 成本较高。

Plan-and-Execute：先规划后执行

Plan-and-Execute 架构将决策分为两个阶段：规划阶段生成完整计划，执行阶段按计划执行。

一个典型的执行流程是：

目标：分析销售数据并生成报告 【规划阶段】 1. 读取销售数据文件 2. 数据清洗和预处理 3. 计算关键指标（总销售额、增长率等） 4. 生成可视化图表 5. 撰写分析报告 6. 导出报告文件 【执行阶段】 逐步执行每个步骤...

Plan-and-Execute 的优点是适合长程任务有明确的执行路径，计划可以复用提高效率，减少认知负载不需要每步都重新思考。缺点是计划可能不适应环境变化，如果规划出错整个执行都会失败，需要设计两个模型（Planner 和 Executor）。

Pre-Act：规划与推理的结合

Pre-Act（arXiv 2505.09970）是较新的架构，试图结合 ReAct 的灵活性和 Plan-and-Execute 的结构性。核心思想是在执行前生成多步计划，但每步计划包含详细推理，执行后动态更新计划。

目标：研究 AI Agent 的最新进展 Step 1: 搜索近期 AI Agent 相关论文 Reasoning: 需要先了解学术界的最新研究 Expected: 获得 5-10 篇相关论文 Step 2: 阅读并总结论文要点 Reasoning: 提取关键信息用于后续分析 Expected: 每篇论文的核心贡献 Step 3: 整理技术趋势 Reasoning: 从论文中归纳共性趋势 Expected: 3-5 个主要技术方向

Pre-Act 的优点是结合了两种架构的优点，支持动态调整适应性强，推理过程清晰可解释性好。缺点是实现复杂度较高，计算成本较高，需要更多的工程实践。

三种架构对比

维度	ReAct	Plan-and-Execute	Pre-Act
规划深度	单步	多步	多步+推理
适应性	高	低	中
长程任务	弱	强	强
计算成本	低	中	高
可解释性	高	中	高
适用场景	简单交互	固定流程	复杂决策

如何选择决策架构？

选择 ReAct：任务相对简单步骤较少，需要实时响应用户，环境变化频繁需要灵活调整。比如问答系统、简单搜索、客服机器人。
选择 Plan-and-Execute：任务流程相对固定，需要处理长程任务，可以预先规划完整流程。比如数据分析流程、报告生成、工作流自动化。
选择 Pre-Act：任务复杂需要深度推理，需要平衡结构性和灵活性，对可解释性要求高。比如研究助手、复杂决策支持、多步骤分析。

执行模块：Agent 的"手脚"

执行模块负责将决策转化为具体行动，这是 Agent 与外部世界交互的桥梁，也是 Agent "能做事"的关键。执行模块的核心是工具调用，Agent 通过调用各种工具来完成具体任务。

一个工具通常包含以下要素：

名称：工具的唯一标识
描述：工具的功能说明，帮助 Agent 理解何时使用
参数模式：工具接受的参数类型和格式
执行函数：实际执行操作的代码

常见的工具类型：

工具类型	功能	示例
搜索工具	搜索网络信息	Google Search, Bing Search
数据工具	处理和分析数据	Pandas, SQL 查询
代码工具	执行代码	Python 解释器, Shell
文件工具	读写文件	文件上传下载、格式转换
通信工具	发送消息	邮件、短信、通知
API 工具	调用外部服务	天气 API, 地图 API

工具调用的流程是：Agent 决定使用某个工具 → 构造工具调用参数 → 执行工具 → 获取执行结果 → 将结果反馈给决策模块。

在实际开发中，工具的设计直接影响 Agent 的能力：

工具粒度要适中：太粗粒度的工具难以组合使用，太细粒度的工具会增加调用次数。不好的设计是一个工具做所有事情比如 analyze_everything(data)，好的设计是分成 load_data、clean_data、analyze_data、visualize_data、export_report 等可组合的工具。
工具描述要清晰：这是 Agent 理解工具用途的关键，描述应该包含工具的功能、适用场景、参数说明和返回值说明。
错误处理要完善：工具调用可能失败，需要参数验证、异常捕获、错误返回和重试机制。
安全性很重要：工具调用涉及外部操作，需要权限控制、输入过滤、资源限制和日志记录。

记忆模块：Agent 的"记忆系统"

记忆模块让 Agent 能够保持上下文连续性，积累经验，从历史中学习。根据 Microsoft Sam Schillace (2024) 的观点：“要实现自主性，必须在一系列行动中保持上下文连续性”。

Agent 的记忆系统通常分为三种类型，类比人类的记忆系统：

工作记忆 (Working Memory)：存储当前任务的相关信息，类似于人类的"短期记忆"。特点是容量有限（通常 5-10 个信息块）、访问速度快、任务结束后清空。用途包括存储当前对话上下文、保存中间计算结果、记录当前任务状态。
情景记忆 (Episodic Memory)：存储历史交互记录，类似于人类的"事件记忆"。特点是按时间顺序组织、支持时间范围查询、长期存储。用途包括记录用户历史请求、保存任务执行历史、支持用户行为分析。
语义记忆 (Semantic Memory)：存储概念知识和事实，类似于人类的"知识库"。特点是按概念组织、支持语义检索、长期存储。用途包括存储领域知识、保存用户偏好、积累经验知识。

记忆的价值在于能够被有效检索和使用。常见的检索策略：

基于时间的检索：检索最近的记忆
基于重要性的检索：检索最重要的记忆
基于相关性的检索：使用向量相似度计算
混合检索：结合多种策略

随着使用时间增长，记忆会越来越多，需要有效的管理策略：遗忘机制定期清理不重要的记忆，记忆压缩将多个相关记忆合并为摘要，记忆优先级为记忆分配优先级，记忆更新当新信息与旧记忆冲突时更新旧记忆。

三、完整 Agent 实现示例

以 ReAct Agent 为例展示一个完整的实现，这里只展示核心逻辑，完整代码可以参考开源项目如 LangChain 的实现。

classReActAgent:defrun(self, query:str)->str: trajectory =[]# 记录执行轨迹for iteration inrange(self.max_iterations):# 1. 思考：决定下一步做什么 thought = self.think(query, trajectory)# 2. 检查是否完成if thought.is_final:return thought.answer # 3. 执行动作 result = self.execute(thought.action, thought.action_input)# 4. 记录观察 trajectory.append({"thought": thought.reasoning,"action": thought.action,"observation": result })return"达到最大迭代次数，未能完成任务"

关键实现细节：

Prompt 设计：引导模型按照 Thought-Action-Observation 的格式输出
输出解析：从模型输出中提取 Thought、Action、Action Input 等字段
工具选择：根据 Action 名称选择对应的工具执行
迭代控制：设置最大迭代次数防止无限循环

Plan-and-Execute Agent 的实现分为两个阶段：

classPlanAndExecuteAgent:defrun(self, goal:str)->str:# 1. 生成计划 plan = self.planner.plan(goal)# 2. 执行计划 results =[]for step in plan.steps: result = self.executor.execute(step) results.append(result)# 可选：根据执行结果调整后续计划if self.need_replan(result): plan = self.replan(plan, result)# 3. 综合结果return self.synthesize(goal, results)

关键实现细节：

Planner 和 Executor 分离：可以使用不同的模型
计划表示：包含步骤描述、依赖关系、预期输出等
动态调整：执行过程中根据结果调整计划

在实际开发 Agent 时，有几点经验值得参考：

不要一开始就追求复杂的架构，先实现一个简单的 ReAct Agent 验证核心流程，再逐步增加功能。
Agent 的能力很大程度上取决于工具的设计，花时间设计好工具接口比优化 Agent 架构更重要。
Agent 执行过程中可能遇到各种错误：工具调用失败、模型输出格式错误、网络超时等，完善的错误处理是 Agent 可靠性的保障。
记录 Agent 的执行过程，包括每一步的决策、工具调用、结果等，这对于调试和优化至关重要。
建立用户反馈机制，让用户能够纠正 Agent 的错误决策，这不仅能提升用户体验，还能收集训练数据。

四、架构选型指南

简单单步

中等复杂

高度复杂

是

否

架构选型

任务复杂度？

ReAct

是否需要动态调整？

Pre-Act

Plan-and-Execute

示例：问答、简单搜索、客服

示例：数据分析、报告生成、工作流

示例：研究助手、复杂决策、多步骤分析

场景	推荐架构	记忆类型	工具复杂度	典型应用
简单问答	ReAct	工作记忆	低	智能客服、FAQ
数据分析	Plan-and-Execute	工作记忆+情景	中	BI 报告、数据洞察
研究助手	Pre-Act	全部	高	学术研究、市场调研
代码助手	ReAct + 反思	工作记忆+语义	高	代码生成、Bug 修复
流程自动化	Plan-and-Execute	情景记忆	中	RPA、工作流引擎

开发中常见的问题：

Agent 容易陷入循环怎么办？ 设置最大迭代次数并实现循环检测机制，当检测到 Agent 在重复相同的动作时主动干预。
Agent 的决策不可控怎么办？ 在 Prompt 中明确约束，实现人工确认机制，记录决策过程支持事后审计。
工具调用失败怎么处理？ 实现重试机制，提供备选工具，当工具不可用时优雅降级。
如何评估 Agent 的效果？ 关注任务完成率、平均步骤数、用户满意度、成本效益比。

五、最佳实践

感知优先：确保 Agent 能准确理解环境和用户意图，感知是所有后续决策的基础，感知出错会导致连锁错误。
渐进规划：从简单架构开始，根据实际需求增加复杂度，不要过度设计，先用起来再优化。
记忆设计：根据任务特点选择合适的记忆类型。短对话用工作记忆即可，长对话需要情景记忆，知识密集型需要语义记忆。
工具抽象：设计清晰、可组合的工具接口，好的工具设计能让 Agent 的能力大幅提升。
错误处理：实现健壮的错误恢复机制，Agent 在真实环境中运行，必须能够处理各种异常情况。

技术选型方面：

框架：LangChain、AutoGen、CrewAI 等成熟框架可以加速开发
模型：根据任务复杂度选择，简单任务用小模型，复杂任务用大模型
存储：向量数据库用于语义记忆，关系数据库用于结构化数据

工程实践方面：

对 Prompt 和工具定义进行版本控制
建立测试用例库覆盖常见场景和边界情况
实时监控 Agent 的执行状态和性能指标
详细记录执行过程便于调试和优化

六、总结

AI Agent 的核心在于感知-决策-执行的闭环：

感知：理解环境提取关键信息，是 Agent 的"眼睛和耳朵"
决策：规划行动分解任务，是 Agent 的"大脑"
执行：调用工具与环境交互，是 Agent 的"手脚"
记忆：保持上下文积累经验，是 Agent 的"记忆系统"

架构选择上，ReAct 简单灵活适合快速响应的简单任务，Plan-and-Execute 结构清晰适合流程固定的长程任务，Pre-Act 平衡两者适合需要深度推理的复杂任务。

核心观点是：没有最优架构，只有最适合场景的架构。从简单开始，根据实际需求逐步演进。

未来展望：随着多模态大模型的发展，Agent 的感知能力将更加强大；随着推理模型的进步，Agent 的决策能力将更加智能；随着工具生态的丰富，Agent 的执行能力将更加强大。AI Agent 正在从"能对话"走向"能做事"，这将是人工智能应用的下一个重要方向。

参考文献：

Yao, S., et al. (2022). “ReAct: Synergizing Reasoning and Acting in Language Models.” arXiv:2210.03629
Erdogan, et al. (2025). “Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks.” arXiv:2503.09572
Pre-Act Paper (2025). “Multi-Step Planning and Reasoning Improves Acting in LLM Agents.” arXiv:2505.09970
“AI Agents: Evolution, Architecture, and Real-World Applications.” arXiv:2503.12687
“Agentic AI: A Comprehensive Survey of Architectures.” arXiv:2510.25445
WEF (2025). “AI Agents in Action: Foundations for Evaluation and Governance”