大模型 Agent 核心技术与面试要点解析
1. 什么是大模型 Agent?
Agent(智能体)概念最早由人工智能领域的研究者提出,旨在模拟人类的智能行为。在传统的 AI 系统中,Agent 主要集中在解决特定问题或领域,如专家系统、规则引擎等。随着计算机和网络技术的发展,Agent 开始融入到各种应用中,如搜索引擎、个人助理等。
进入深度学习时代,特别是 2014 年起深度强化学习的兴起,使得 Agent 能够通过与环境的交互来学习和优化其行为。如今,基于大型语言模型(LLM)和深度强化学习结合的 Agent 已经成为人工智能领域的核心研究方向之一,涉及到智能系统、机器人、游戏、自动化等多个领域。
简而言之,现代的大模型 Agent 可以定义为:LLM + Planning + Memory + Tools。这种架构让大模型不再仅仅是文本生成器,而是实现了任务自动化,并且能够不断探索、规划和发展新技能。在大模型 AI 时代下,大模型应用或 AI Power+ 的应用本质上就是大模型 Agent,其地位等同于移动互联时代的 APP。
2. LLM Agent 的核心架构组件
一个完整的 Agent 系统通常包含以下四个核心组件:
2.1 感知(Perception)
Agent 需要能够理解外部环境的信息。这包括接收用户的自然语言指令、读取文件内容、访问数据库状态或通过 API 获取实时数据。感知模块负责将非结构化输入转化为 Agent 可理解的上下文。
2.2 记忆(Memory)
记忆是 Agent 持续学习和保持上下文的关键。它分为短期记忆和长期记忆:
- 短期记忆:通常指当前的对话窗口或上下文窗口,用于处理即时交互。
- 长期记忆:通过向量数据库存储历史交互、用户偏好或知识库信息。Agent 可以根据当前需求动态检索相关记忆,合成更高级别的反思,从而支持复杂任务的长期执行。
2.3 规划(Planning)
规划能力决定了 Agent 能否完成复杂任务。生成式智能体通过自上而下递归生成规划,以便创建合理的行动计划。这些规划最初是对当日任务的粗略描述。在执行规划时,智能体持续感知周围环境,并将观察结果存储到记忆流中。利用这些观察结果作为提示,语言模型决定智能体下一步的行动:是继续执行当前规划,还是采取其他反应。
2.4 工具使用(Tools)
为了突破 LLM 的知识边界和能力限制,Agent 必须能够调用外部工具。这包括搜索互联网、运行代码、操作文件系统、调用 API 等。通过函数调用(Function Calling)机制,Agent 可以将自然语言意图转化为具体的程序执行动作。
3. LLM Agent 典型应用场景
3.1 西部世界小镇 Agent
2023 年 3 月,斯坦福大学构建了西部世界小镇 Agent,构建出了一个虚拟小镇,让 25 个 AI 智能体在其中生存、从事复杂行为。
为了生成智能体,研究者提出了一种全新架构,它扩展了大语言模型,能够使用自然语言存储 Agent 的经历。随着时间的推移,这些记忆会被合成为更高级别的反射,智能体可以动态检索它们,来规划自己的行为。最终,用户可以使用自然语言和全镇的 25 个 Agent 都实现交互。
该架构实现了一个记忆「检索」(Retrieve)功能,这一功能将智能体的当前情况/感知(Perceive)作为输入,并返回记忆流(Memory Stream)的一个子集(Retrieved Memories)传递给语言模型。检索功能有多种可能的实现方式,具体取决于智能体在决定如何行动时考虑的重要因素。
3.2 BabyAGI
BabyAGI 是一个智能个人任务管理和解决工具,它背后的脚本虽然看似简单,但实质上是一个与任务列表交互的语言模型。利用 OpenAI GPT-4 和 Pinecone 向量搜索引擎的强大功能,它能自动生成任务、确定任务优先级并执行任务,从而实现任务的自动化管理。
BabyAGI 从初始任务出发,利用 GPT-4 生成解决方案和新任务,并将这些解决方案存储在 Pinecone 中以备后续检索。BabyAGI 根据先前任务的成果和预设目标制定新任务,并运用 Pinecone 存储并检索任务结果的上下文。这种模式展示了 Agent 在任务闭环管理中的潜力。
4. LLM Agent 流程:拆解子目标和任务分解
4.1 规划的重要性
规划是 Agent 重要组成部分,而拆解子目标和任务分解属于规划中的一部分。对于复杂任务,直接让 LLM 输出最终结果往往效果不佳,因此需要将大问题拆解为小步骤。


