LLM 时代下的智能体
什么是智能体
智能体(AI Agents 或 Agents)是指能够通过行动能力自主完成设定目标的代理系统。这一概念与'智能'密不可分,它具备类似人类的智能能力和行为模式,包括学习、推理、决策和执行能力。
早在 LLM(大语言模型)普及之前,智能体的概念就已经存在。Agent 的概念最早起源于 M. Minsky(AI 之父之一)于 1986 年出版的《Society of Mind》一书,这也是神经网络热潮开始的年份。当时,智能体主要指基于规则或强化学习的程序。然而,随着 LLM 的出现及其涌现能力的展现,人们发现可以基于 LLM 打造更强大的智能体。近期,WebGPT、ChatDev、Toolformer、Devin、MetaGPT 等 AI Agents 产品层出不穷,标志着智能体技术进入了新的发展阶段。
LLM 时代下的智能体变革
LLM 为 AI Agents 的底层提供了一个突破性的技术方案。过去,强化学习基于深度学习框架可以让 Agent 学到技能,但 Agent 本身并没有真正理解问题和技能,泛化性较差,通常只能用于特定领域,例如游戏和制作低维控制/计划,代表性应用是围棋领域的 AlphaGo。而 LLM 带来了深度学习的新范式,其思维链(Chain of Thought)和强大的自然语言理解能力有望让 Agents 具备强大的学习能力和迁移能力,从而让创建广泛应用且实用的 Agents 成为可能。
2023 年 11 月,OpenAI 上线 GPTs 功能,全球 AI 开发者闻风而动;2024 年 1 月,OpenAI 正式上线 GPT Store,开启了构建 AI 智能体的风潮。人工智能著名学者、斯坦福大学教授吴恩达指出,AI Agents 工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。这是一个重要的趋势,他呼吁所有从事人工智能工作的人都关注 AI Agent 工作流。
由于生成式 LLM 存在幻觉问题,记忆力短,在实际应用中难以保持长期一致性和准确性,且 Agents 间合作也是重要趋势。除了等待基座模型自身迭代之外,借助外部力量(如向量存储、检索增强生成 RAG、代码执行等)是重要方法。完整的 Agents 框架应该具备这些能力。我们认为补齐了大模型短板的 AI Agents 更具备实用性,将是大模型重要的落地方向。前特斯拉总监、OpenAI 科学家 Karpathy 公开表示:'如今 AI 智能体才是未来最前沿的方向','相比大模型训练,OpenAI 内部目前更关注 Agents 领域'。LLM 时代下的智能体也是现在很多应用的发展方向,逐渐成为下个 APP 的趋势。
LLM 时代下智能体架构
一个大语言模型智能体框架通常包含以下四个核心部分(注:这不是 AI Agents 的所有模块,目前 AI Agents 也在不断发展中):
- 用户请求:表达用户的问题或意图。
- 智能体/大脑:作为协调者的智能体核心,负责解析请求并调度资源。
- 规划:有助于智能体为未来行动做规划,拆解复杂任务。
- 记忆:管理智能体的历史行为和经验,支持上下文关联。
通过这些组成部分的协同工作,大语言模型智能体能够处理从简单到复杂的各种请求,不仅能够提供直接的答案,还能解决需要深度分析和多步骤操作的问题。这种智能体的能力,使其在处理复杂信息查询、数据分析和可视化表示等方面具有巨大潜力。
LLM Agent 组件拆解
第 3 节提到 Agent 最重要的三大组件:规划、记忆、工具,每个组件可以进一步进行拆分。深入智能体,要求我们有基本的提示词工程经验。
结合吴恩达近期发表的言论,他将 AI Agents 框架分为四个方面:
1. 反思 (Reflection)
LLM 检查自己的工作,以提出改进方法。通过自我评估和修正循环,减少错误输出,提高任务完成的准确率。
2. 工具使用 (Tool Use)
LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。这允许智能体与外部环境交互,获取实时信息或执行具体操作。
3. 规划 (Planning)
LLM 提出并执行一个多步骤计划来实现目标。例如,撰写论文大纲,然后进行在线研究,然后撰写草稿。这涉及任务分解、路径选择和动态调整。
4. 多 Agents 协作 (Multi-agent Collaboration)
类似分而治之,利用每个 Agent 在特定领域的优势,多个 AI Agent 一起工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。其中多 Agents 协作,也是目前开源 Agents 工具和有关 Agents 的学术研究正在探索的方向之一。
著名 LLM 的智能体案例
现在已经有很多著名的大语言智能体,包括但不限于以下智能体:


