LLM 时代下的智能体：核心架构与关键技术

探讨了 LLM 时代下的智能体技术，涵盖定义、架构、核心组件及发展趋势。智能体具备学习、推理、决策和执行能力，LLM 的涌现能力使其具备更强的泛化性。文章详细解析了智能体的四大核心部分：用户请求、大脑、规划和记忆，并深入拆解了反思、工具使用、规划及多智能体协作等组件。文中列举了 Horton、ChatDev 等知名案例，介绍了 LangChain、AutoGen 等主流开发框架，并分析了幻觉、安全、成本等挑战及应对方案。最后总结了智能体作为未来前沿方向的重要性及其在垂直领域的应用潜力。

星星泡饭发布于 2025/2/7更新于 2026/7/2240 浏览

LLM 时代下的智能体

什么是智能体

智能体（AI Agents 或 Agents）是指能够通过行动能力自主完成设定目标的代理系统。这一概念与'智能'密不可分，它具备类似人类的智能能力和行为模式，包括学习、推理、决策和执行能力。

早在 LLM（大语言模型）普及之前，智能体的概念就已经存在。Agent 的概念最早起源于 M. Minsky（AI 之父之一）于 1986 年出版的《Society of Mind》一书，这也是神经网络热潮开始的年份。当时，智能体主要指基于规则或强化学习的程序。然而，随着 LLM 的出现及其涌现能力的展现，人们发现可以基于 LLM 打造更强大的智能体。近期，WebGPT、ChatDev、Toolformer、Devin、MetaGPT 等 AI Agents 产品层出不穷，标志着智能体技术进入了新的发展阶段。

LLM 时代下的智能体变革

LLM 为 AI Agents 的底层提供了一个突破性的技术方案。过去，强化学习基于深度学习框架可以让 Agent 学到技能，但 Agent 本身并没有真正理解问题和技能，泛化性较差，通常只能用于特定领域，例如游戏和制作低维控制/计划，代表性应用是围棋领域的 AlphaGo。而 LLM 带来了深度学习的新范式，其思维链（Chain of Thought）和强大的自然语言理解能力有望让 Agents 具备强大的学习能力和迁移能力，从而让创建广泛应用且实用的 Agents 成为可能。

2023 年 11 月，OpenAI 上线 GPTs 功能，全球 AI 开发者闻风而动；2024 年 1 月，OpenAI 正式上线 GPT Store，开启了构建 AI 智能体的风潮。人工智能著名学者、斯坦福大学教授吴恩达指出，AI Agents 工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。这是一个重要的趋势，他呼吁所有从事人工智能工作的人都关注 AI Agent 工作流。

由于生成式 LLM 存在幻觉问题，记忆力短，在实际应用中难以保持长期一致性和准确性，且 Agents 间合作也是重要趋势。除了等待基座模型自身迭代之外，借助外部力量（如向量存储、检索增强生成 RAG、代码执行等）是重要方法。完整的 Agents 框架应该具备这些能力。我们认为补齐了大模型短板的 AI Agents 更具备实用性，将是大模型重要的落地方向。前特斯拉总监、OpenAI 科学家 Karpathy 公开表示：'如今 AI 智能体才是未来最前沿的方向'，'相比大模型训练，OpenAI 内部目前更关注 Agents 领域'。LLM 时代下的智能体也是现在很多应用的发展方向，逐渐成为下个 APP 的趋势。

LLM 时代下智能体架构

一个大语言模型智能体框架通常包含以下四个核心部分（注：这不是 AI Agents 的所有模块，目前 AI Agents 也在不断发展中）：

用户请求：表达用户的问题或意图。
智能体/大脑：作为协调者的智能体核心，负责解析请求并调度资源。
规划：有助于智能体为未来行动做规划，拆解复杂任务。
记忆：管理智能体的历史行为和经验，支持上下文关联。

通过这些组成部分的协同工作，大语言模型智能体能够处理从简单到复杂的各种请求，不仅能够提供直接的答案，还能解决需要深度分析和多步骤操作的问题。这种智能体的能力，使其在处理复杂信息查询、数据分析和可视化表示等方面具有巨大潜力。

LLM Agent 组件拆解

第 3 节提到 Agent 最重要的三大组件：规划、记忆、工具，每个组件可以进一步进行拆分。深入智能体，要求我们有基本的提示词工程经验。

结合吴恩达近期发表的言论，他将 AI Agents 框架分为四个方面：

1. 反思 (Reflection)

LLM 检查自己的工作，以提出改进方法。通过自我评估和修正循环，减少错误输出，提高任务完成的准确率。

2. 工具使用 (Tool Use)

LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。这允许智能体与外部环境交互，获取实时信息或执行具体操作。

3. 规划 (Planning)

LLM 提出并执行一个多步骤计划来实现目标。例如，撰写论文大纲，然后进行在线研究，然后撰写草稿。这涉及任务分解、路径选择和动态调整。

4. 多 Agents 协作 (Multi-agent Collaboration)

类似分而治之，利用每个 Agent 在特定领域的优势，多个 AI Agent 一起工作，分配任务并讨论和辩论想法，以提出比单个智能体更好的解决方案。其中多 Agents 协作，也是目前开源 Agents 工具和有关 Agents 的学术研究正在探索的方向之一。

名称	说明
Horton	通过给予基于大语言模型的智能体以'资产、偏好及个性'，模拟人类在经济行为场景中的决策过程。
盲审	利用多个语言模型模拟法官的判决过程，其对现实世界最高法院裁决的预测准确度高于随机水平。
ChemCrow	描述了一个专注于化学领域的大语言模型智能体，该智能体能够独立规划并执行驱虫剂、有机催化剂的合成及新型色素的开发。
EduChat	专为教育领域设计的两个杰出的大语言模型智能体。类似的还有 CodeHelp。
ChatDev	展示了 AI 智能体在自动化编程、调试、测试及支持软件工程其他任务方面的潜力。类似的还有 ToolLLM、MetaGPT。
Mehta	提出了一种互动框架，允许建筑师与 AI 智能体合作，在三维模拟环境中设计建筑。
OS-Copilot	提供了一个创新框架，旨在打造能够全面操作操作系统 (OS) 的通用智能体，这些智能体能够灵活应对网络浏览、编码操作、文件管理、多媒体处理及与众多第三方应用的交互。

LLM 时代下的智能体：核心架构与关键技术

LLM 时代下的智能体

什么是智能体

LLM 时代下的智能体变革

LLM 时代下智能体架构

LLM Agent 组件拆解

1. 反思 (Reflection)

2. 工具使用 (Tool Use)

3. 规划 (Planning)

4. 多 Agents 协作 (Multi-agent Collaboration)

著名 LLM 的智能体案例

更多推荐文章

相关免费在线工具

主流开发框架与实现

LangChain

AutoGen

CrewAI

面临的挑战与解决方案

幻觉问题

安全性风险

成本与延迟

长期一致性

总结与展望

更多推荐文章

相关免费在线工具

LLM 时代下的智能体：核心架构与关键技术

LLM 时代下的智能体

什么是智能体

LLM 时代下的智能体变革

LLM 时代下智能体架构

LLM Agent 组件拆解

1. 反思 (Reflection)

2. 工具使用 (Tool Use)

3. 规划 (Planning)

4. 多 Agents 协作 (Multi-agent Collaboration)

著名 LLM 的智能体案例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

主流开发框架与实现

LangChain

AutoGen

CrewAI

面临的挑战与解决方案

幻觉问题

安全性风险

成本与延迟

长期一致性

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具