AI Agent 技术解析：定义、架构与主流框架实践

AI Agent 是基于大语言模型（LLM）的自主智能体，具备感知、规划、行动及记忆能力。文章阐述了 Agent 的定义、核心组件（规划、记忆、工具使用、行动），对比了嵌入、副驾驶与智能体三种人机协同模式，并分析了软件架构从面向过程向面向目标的迁移。同时介绍了 AutoGPT、AutoGen、ChatDev 等主流框架，探讨了 Agent 在成为基础设施过程中的展望与技术挑战，如上下文限制、长期规划可靠性及成本问题。

PgDevote发布于 2025/2/6更新于 2026/7/2150 浏览

未来是 Agent 的世界，AI Agent 正在以各种方式迅速进入我们的生活，将在未来几年内彻底改变我们的生活方式。

一、什么是 AI Agent (LLM Agent)

1.1 AI Agent 的定义

在 LLM 语境下，Agent 可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。它使用大型语言模型（LLM）作为其核心计算引擎，使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之，Agent 是一个具有复杂推理能力、记忆和执行任务手段的系统。

Agent 并非 ChatGPT 升级版，它不仅告诉你'如何做'，更会帮你去做。如果 Copilot 是副驾驶，那么 Agent 就是主驾驶。

一个精简的 Agent 决策流程，用函数表达式：

Agent：P（感知）—> P（规划）—>A（行动）

类似人类'做事情'的过程，Agent 的核心功能，可以归纳为三个步骤的循环：感知（Perception）、规划（Planning）和行动（Action）。

感知（Perception）是指 Agent 从环境中收集信息并从中提取相关知识的能力，规划（Planning）是指 Agent 为了某一目标而作出的决策过程，行动（Action）是指基于环境和规划做出的动作。

其中，Policy 是 Agent 做出 Action 的核心决策，而行动又通过观察（Observation）成为进一步 Perception 的前提和基础，形成自主的闭环学习过程。

这一过程就像马克思主义的'实践论'：'认识从实践开始，经过实践得到了理论的认识，再回到实践中去。'Agent 也在知行合一中进化。

一个更完整的 Agent，一定是与环境充分交互的，它包括两部分——一是 Agent 的部分，二是环境的部分。此刻的 Agent 就如同物理世界中的'人类'，物理世界就是人类的'外部环境'。

可以想象，人类与外部环境交互的过程：我们基于对这个世界的全部感知，推导出其隐藏的状态，并结合自己的记忆和对世界的知识理解，进而做出 Planning、决策和行动；而行动又会反作用于环境，给我们新的反馈，人类结合对反馈的观察，继而再做决策，以此循环往复。

最直观的公式：

Agent = LLM+Planning+Feedback+Tool use

其中，在做 Planning 的过程中，除了基于现在的状态，还有要记忆、经验，一些对过往的反思和总结，同时还有世界知识。

对比今天的 ChatGPT，它其实并非 Agent，而是一个通用的世界知识，即用来做 Planning 的知识源，它没有基于具体的环境状态，也没有 Memory，Experience 和 Reflection。

当然，ChatGPT 基于自身的知识可以做逻辑推理和一定的规划，也可以加向量数据库解决推理问题，加 Reflection 让过程更丰富，如此看来，可将 ChatGPT 这个端到端的黑盒子变得显性化一点儿——其实符号就是一个非常显性的系统，基于此可以定向纠错，定向提升。

对于 Feedback，Agent 基于 Action 得到正向的或试错的反馈、阶段性结果或奖励。Feedback 有多种形式，如果将与我们聊天的 ChatGPT 视为一个 Agent，我们在文本框中敲入的回复就是一种 Feedback，只不过是一种文本形式的 Feedback，此时我们对于 ChatGPT 来说，就是一种环境。RLHF 也是一种环境，一种极度简单的环境。

'人类之所以是人类，因为他会使用工具。'

作为智能体，Agent 也可以借助外部工具扩展功能，使其能够处理更加复杂的任务。比如 LLM 使用天气 API 来获取天气预报信息。如果不调用外部工具，Action 和 Feedback 也可以直接通过学习 Policy，应对环境。

可见 Agent 是真正主动释放 LLM 潜能的关键。LLM 作为核心，Agent 为 LLM 提供了行动的主观能动性。

1.2 AI Agent 的主要组成部分

在 LLM 赋能的自主 agent 系统中 (LLM Agent)，LLM 充当 agent 大脑的角色，并与若干关键组件协作。

规划（planning）

子目标分解：agent 将大任务拆分为更小的可管理的子目标，使得可以有效处理复杂任务。
反思与完善：agent 对历史动作可以自我批评和自我反思，从错误中学习并在后续步骤里完善，从而改善最终结果的质量。

记忆（Memory）

短期记忆：上下文学习即是利用模型的短期记忆学习
长期记忆：为 agent 提供保留和召回长期信息的能力，通常利用外部向量存储和检索实现

工具使用（tool use）

对模型权重丢失的信息，agent 学习调用外部 API 获取额外信息，包括当前信息、代码执行能力、专有信息源的访问等等

行动（Action）

AI Agent 技术解析：定义、架构与主流框架实践

一、什么是 AI Agent (LLM Agent)

1.1 AI Agent 的定义

1.2 AI Agent 的主要组成部分

更多推荐文章

相关免费在线工具

二、AI Agent 的意义

2.1 人机协同模式

2.2 AI Agent 与软件开发

三、常见 AI Agent 框架或者应用

3.1 AutoGPT

3.2 AutoGen

3.3 ChatDev

3.4 XAgent

3.5 GPT-engineer

3.6 HuggingGPT

四、AI Agent 的展望与挑战

4.1 展望

4.2 挑战

更多推荐文章

相关免费在线工具

AI Agent 技术解析：定义、架构与主流框架实践

一、什么是 AI Agent (LLM Agent)

1.1 AI Agent 的定义

1.2 AI Agent 的主要组成部分

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、AI Agent 的意义

2.1 人机协同模式

2.2 AI Agent 与软件开发

三、常见 AI Agent 框架或者应用

3.1 AutoGPT

3.2 AutoGen

3.3 ChatDev

3.4 XAgent

3.5 GPT-engineer

3.6 HuggingGPT

四、AI Agent 的展望与挑战

4.1 展望

4.2 挑战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具