跳到主要内容 大模型 Agent 核心技术与面试要点解析 | 极客日志
编程语言 AI 算法
大模型 Agent 核心技术与面试要点解析 大模型 Agent 是结合大型语言模型与规划、记忆及工具调用能力的智能系统,被视为实现 AGI 的重要路径。详细解析了 Agent 的四大核心组件:感知、记忆、规划与工具使用。通过西部世界小镇和 BabyAGI 案例,阐述了多智能体协作与任务管理的实际应用。重点介绍了任务分解技术,包括思维链(CoT)、思维树(ToT)及思维图(GoT),并对比了 ReAct 与 Plan-and-Solve 范式。文章还探讨了工程化中的幻觉、成本及安全挑战,并展望了多模态与自主进化的未来趋势,为技术面试与系统设计提供参考。
1951018925 发布于 2025/2/7 更新于 2026/4/20 1 浏览
1. 什么是大模型 Agent? Agent(智能体)概念最早由人工智能领域的研究者提出,旨在模拟人类的智能行为。在传统的 AI 系统中,Agent 主要集中在解决特定问题或领域,如专家系统、规则引擎等。随着计算机和网络技术的发展,Agent 开始融入到各种应用中,如搜索引擎、个人助理等。
进入深度学习时代,特别是 2014 年起深度强化学习的兴起,使得 Agent 能够通过与环境的交互来学习和优化其行为。如今,基于大型语言模型(LLM)和深度强化学习结合的 Agent 已经成为人工智能领域的核心研究方向之一,涉及到智能系统、机器人、游戏、自动化等多个领域。
简而言之,现代的大模型 Agent 可以定义为:LLM + Planning + Memory + Tools。这种架构让大模型不再仅仅是文本生成器,而是实现了任务自动化,并且能够不断探索、规划和发展新技能。在大模型 AI 时代下,大模型应用或 AI Power+ 的应用本质上就是大模型 Agent,其地位等同于移动互联时代的 APP。
2. LLM Agent 的核心架构组件 一个完整的 Agent 系统通常包含以下四个核心组件:
2.1 感知(Perception) Agent 需要能够理解外部环境的信息。这包括接收用户的自然语言指令、读取文件内容、访问数据库状态或通过 API 获取实时数据。感知模块负责将非结构化输入转化为 Agent 可理解的上下文。
2.2 记忆(Memory) 记忆是 Agent 持续学习和保持上下文的关键。它分为短期记忆和长期记忆:
短期记忆 :通常指当前的对话窗口或上下文窗口,用于处理即时交互。
长期记忆 :通过向量数据库存储历史交互、用户偏好或知识库信息。Agent 可以根据当前需求动态检索相关记忆,合成更高级别的反思,从而支持复杂任务的长期执行。
2.3 规划(Planning) 规划能力决定了 Agent 能否完成复杂任务。生成式智能体通过自上而下递归生成规划,以便创建合理的行动计划。这些规划最初是对当日任务的粗略描述。在执行规划时,智能体持续感知周围环境,并将观察结果存储到记忆流中。利用这些观察结果作为提示,语言模型决定智能体下一步的行动:是继续执行当前规划,还是采取其他反应。
2.4 工具使用(Tools) 为了突破 LLM 的知识边界和能力限制,Agent 必须能够调用外部工具。这包括搜索互联网、运行代码、操作文件系统、调用 API 等。通过函数调用(Function Calling)机制,Agent 可以将自然语言意图转化为具体的程序执行动作。
3. LLM Agent 典型应用场景
3.1 西部世界小镇 Agent 2023 年 3 月,斯坦福大学构建了西部世界小镇 Agent,构建出了一个虚拟小镇,让 25 个 AI 智能体在其中生存、从事复杂行为。
为了生成智能体,研究者提出了一种全新架构,它扩展了大语言模型,能够使用自然语言存储 Agent 的经历。随着时间的推移,这些记忆会被合成为更高级别的反射,智能体可以动态检索它们,来规划自己的行为。最终,用户可以使用自然语言和全镇的 25 个 Agent 都实现交互。
该架构实现了一个记忆「检索」(Retrieve)功能,这一功能将智能体的当前情况/感知(Perceive)作为输入,并返回记忆流(Memory Stream)的一个子集(Retrieved Memories)传递给语言模型。检索功能有多种可能的实现方式,具体取决于智能体在决定如何行动时考虑的重要因素。
3.2 BabyAGI BabyAGI 是一个智能个人任务管理和解决工具,它背后的脚本虽然看似简单,但实质上是一个与任务列表交互的语言模型。利用 OpenAI GPT-4 和 Pinecone 向量搜索引擎的强大功能,它能自动生成任务、确定任务优先级并执行任务,从而实现任务的自动化管理。
BabyAGI 从初始任务出发,利用 GPT-4 生成解决方案和新任务,并将这些解决方案存储在 Pinecone 中以备后续检索。BabyAGI 根据先前任务的成果和预设目标制定新任务,并运用 Pinecone 存储并检索任务结果的上下文。这种模式展示了 Agent 在任务闭环管理中的潜力。
4. LLM Agent 流程:拆解子目标和任务分解
4.1 规划的重要性 规划是 Agent 重要组成部分,而拆解子目标和任务分解属于规划中的一部分。对于复杂任务,直接让 LLM 输出最终结果往往效果不佳,因此需要将大问题拆解为小步骤。
4.2 拆解子目标方法 拆解子目标和任务分解意味着智能体能够将复杂的大型任务拆分成小而易管理的子目标,以实现高效处理。
Chain of Thought (CoT) Chain of thought 要求模型按步骤思考,花更多时间计算,将复杂任务分解成小、简单的步骤。CoT 将大任务转化为多个易管理的任务,并解释了模型的思维过程。这种方法显著提升了模型在数学推理和逻辑问答上的表现。
Tree of Thoughts (ToT) Tree of Thoughts 是对 CoT 的进一步扩展,通过在每一步骤中探索多种推理可能性来创建一个树形结构。它将问题分解为多个思考步骤,并在每个步骤中生成多个思考。搜索过程可以是 BFS(广度优先搜索)或 DFS(深度优先搜索),每个状态由分类器或多数投票原则来决定。这使得模型能够在遇到死胡同时回溯并尝试其他路径。
Graph of Thoughts (GoT) Graph of Thoughts 支持多种结构的 Prompt 方案,包括多链、树形和任意图形结构。它实现了各种基于图形的思考转换,如聚合、回溯和循环,这是 CoT 和 ToT 无法表达的。通过将复杂问题建模为操作图,以 LLM 作为引擎自动执行,GoT 提供了解决复杂问题的能力,某种程度上,GoT 包含了单线条的 CoT 和多分枝的 ToT。
4.3 任务分解方法 在实际开发中,可以通过以下几种方式引导 LLM 进行任务分解:
通用提示词 :给 LLM 一个简单的提示词'Steps for XYZ.'或'What are the subgoals for achieving XYZ?'。
针对性指令 :使用针对具体任务的指令,例如对一个写小说的任务先给出'Write a story outline.'指令。
人工干预 :使用者直接输入关键约束条件或中间产物,辅助模型进行分解。
5. 进阶技术:ReAct 与 Plan-and-Solve 除了上述思维链方法,还有两种重要的 Agent 范式:
5.1 ReAct (Reasoning + Acting) ReAct 框架将推理(Reasoning)和行动(Acting)交替进行。模型首先输出推理过程,解释为什么选择某个行动,然后执行行动,观察结果,再基于结果进行下一轮推理。这种循环机制有效减少了幻觉,提高了任务执行的准确性。
5.2 Plan-and-Solve Plan-and-Solve 策略要求模型先生成一个完整的计划,然后再逐步执行计划中的每一个步骤。这种方法适合那些需要全局视野才能正确执行的任务,避免了局部最优导致的错误累积。
6. 工程化挑战与未来展望
6.1 主要挑战 尽管 Agent 技术前景广阔,但在实际落地中仍面临诸多挑战:
幻觉问题 :LLM 可能会编造不存在的工具或参数,导致执行失败。
延迟与成本 :复杂的规划和多步推理会显著增加 Token 消耗和响应时间。
安全性 :自主 Agent 可能执行危险操作,需要建立严格的权限控制和沙箱环境。
6.2 未来趋势
多模态 Agent :结合视觉、听觉等多模态输入,使 Agent 能像人类一样感知物理世界。
自主进化 :Agent 能够通过自我反思和自我迭代,不断优化自身的策略和知识库。
人机协作 :从完全自主转向人机协同,人类作为监督者介入关键决策环节。
7. 总结 大模型 Agent 代表了 AI 从被动响应向主动服务转变的关键一步。通过整合 LLM 的语义理解能力、规划算法的逻辑推理能力以及工具调用的执行能力,Agent 正在重塑软件交互的方式。对于开发者而言,掌握 Agent 的核心架构、任务分解策略及工程实践,是应对未来技术变革的重要基础。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown转HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online