AI Agent 架构详解:感知 - 决策 - 执行的三位一体
从 ReAct 到 Plan-and-Execute,从单智能体到多智能体协作,AI Agent 的核心架构始终围绕"感知 - 决策 - 执行"展开。本文基于 2024-2025 年最新研究论文,深入解析 Agent 的认知架构与实现范式。
一、什么是 AI Agent?
如果你用过 ChatGPT,一定熟悉这样的对话模式:问一个问题,得到一个回答。这是一次性的、被动的交互。但如果你希望 AI 能帮你完成一个复杂任务,比如"帮我分析这份数据并生成报告,然后发送给相关同事",传统的 ChatBot 就无能为力了——它只能告诉你怎么做,却不能替你做。
这就是 AI Agent 出现的背景。Agent 这个词源于哲学,指的是"能够自主行动的实体"。在 AI 领域,Agent 不仅仅是回答问题,而是能够感知环境、做出决策、采取行动,像一个真正的"助手"一样帮你完成任务。
举个例子对比一下:
传统 ChatBot 的交互是这样的——用户说"帮我查一下北京明天的天气,如果下雨就提醒我带伞",ChatBot 回复"北京明天有雨,气温 15-22 度,建议您出门带伞",对话结束,用户需要自己记住这件事。
而 AI Agent 的交互完全不同——用户说同样的话,Agent 会调用天气 API 获取北京明天天气,判断确实有雨,然后设置一个明天早上 7 点的提醒,最后回复用户"已为您设置明天早上的带伞提醒"。可以看到,Agent 的核心区别在于:它不只是"说",还会"做"。
根据 arXiv 2503.12687《AI Agents: Evolution, Architecture, and Real-World Applications》的定义,一个合格的 AI Agent 应该具备四个核心特征:
- 自主性 (Autonomy):Agent 能够在没有人类持续干预的情况下独立运行。比如你让 Agent'帮我预订明天下午的会议室',自主性好的 Agent 会自动查询空闲会议室、根据历史偏好选择、完成预订并发送确认。而自主性差的系统需要你一步步告诉它:先查会议室列表,再筛选时间,再选择房间,最后确认预订。
- 反应性 (Reactivity):Agent 能够感知环境变化并及时做出响应。环境变化可能是外部数据的变化(如股票价格波动)、用户需求的变化(如用户修改了任务要求)、或者系统状态的变化(如某个工具暂时不可用)。一个反应性好的 Agent 应该能够动态调整自己的行为,而不是死板地执行预设的流程。
- 主动性 (Proactivity):这是 Agent 区别于普通程序的关键特征。普通的程序是被动的——你触发它,它才执行。但 Agent 应该能够主动规划并采取行动来实现目标。比如你让 Agent'帮我监控某只股票,价格跌破 100 元时通知我',主动性好的 Agent 不会只是被动等待,而是会主动设置监控任务,定期检查股票价格,在条件触发时主动通知你,甚至可能主动分析下跌原因并给出建议。
- 社交性 (Social Ability):Agent 能够与其他 Agent 或人类进行有效的交互和协作。在复杂任务中,单个 Agent 可能无法完成所有工作,需要多个 Agent 协作,或者需要与人类进行沟通确认。
AI Agent 系统
感知
Perception
决策
Planning
执行
Action
反思
Reflection
传统 AI 系统
输入
模型推理
输出
想象你是一个数据分析平台的产品经理,用户上传了一份销售数据想分析上季度的销售趋势。传统 AI 会这样处理:用户上传数据,AI 读取数据生成一段分析文字,用户如果想看图表需要重新提问,用户如果想导出报告需要再次提问,每次交互都是独立的,AI 不记得之前的上下文。
同样的场景,Agent 会这样处理:用户上传数据说"分析一下上季度的销售趋势",Agent 自动识别数据结构选择合适的分析方法,生成分析报告同时创建可视化图表,主动询问是否需要导出报告并推荐合适的格式,整个过程 Agent 记住了上下文可以随时调整分析方向。
二、Agent 核心架构:感知 - 决策 - 执行
根据 arXiv 2510.25445《Agentic AI: A Comprehensive Survey of Architectures》的研究,现代 Agent 架构包含四个核心模块,这四个模块就像人类的认知系统一样协同工作:
- 感知模块:相当于人的"眼睛和耳朵"
- 决策模块:相当于人的"大脑"
- 记忆模块:相当于人的"记忆系统"
- 执行模块:相当于人的"手脚"
Agent 认知架构
执行模块 Action
工具调用
环境交互
结果反馈


