引言
在数字化转型的浪潮中,人工智能(AI)正以其前所未有的速度和规模,重塑着我们的世界。大语言模型(LLM)的出现,仿佛为 AI 赋予了思考的大脑。但若要让这些数字巨人真正步入现实世界,与人类并肩作战,我们还需要给它们配备什么?答案可能是:智能体(Agent)。
本文深入解析了大模型时代下的智能体(Agent)技术。文章阐述了智能体与大模型的区别,重点介绍了智能体的三大核心构成:规划(Planning)、记忆(Memory)和工具使用(Tool Use)。文中详细讲解了思维链(CoT)、思维树(ToT)、ReAct 等规划策略,区分了短期与长期记忆的应用场景,并说明了 Function Calling 的实现机制。此外,还列举了 LangChain、AutoGen 等主流开发框架,分析了当前面临的技术挑战及未来展望,旨在帮助开发者理解并构建自主智能应用。

在数字化转型的浪潮中,人工智能(AI)正以其前所未有的速度和规模,重塑着我们的世界。大语言模型(LLM)的出现,仿佛为 AI 赋予了思考的大脑。但若要让这些数字巨人真正步入现实世界,与人类并肩作战,我们还需要给它们配备什么?答案可能是:智能体(Agent)。
大模型虽然强大,但它们缺乏人类的某些本能——记忆、工具使用和规划思考能力。人类能够记住知识、使用工具、规划行动,而大模型则需要额外的支持来实现这些功能。
智能体,或称为 Agent,是一种计算机程序,它基于大语言模型,并通过添加规划思考、记忆和工具使用的能力,能够自主完成复杂的任务。它不仅仅是被动地回答问题,而是主动地感知环境、制定计划并执行操作。
[图:智能体架构示意图]
在基于 LLM 的智能体中,LLM 充当着智能体的'大脑'的角色。下面对智能体的三大核心能力—规划、记忆与工具使用进行详细讲解。
规划是智能体将复杂任务分解为可执行子任务的能力。它是智能体有效完成任务的行动指南。以下是规划在智能体中的全面应用:
思维链 (Chain of Thoughts, CoT)
思维链已经是一种比较标准的提示技术,能显著提升 LLM 完成复杂任务的效果。当我们对 LLM 这样要求,会发现 LLM 会把问题分解成多个步骤,一步一步思考和解决,能使得输出的结果更加准确。这是一种线性的思维方式。
思维链的 Prompt 示例:
template = "回答问题:Q:{问题}?让我们一步一步地思考:"
思维树(Tree-of-thought, ToT)
对 CoT 的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS)等算法来探索思维树,并进行前瞻和回溯。
[图:思维树结构示意]
ReAct
ReAct(Yao et al. 2023),《ReAct: Synergizing Reasoning and Acting in Language Models》这篇论文提出一种用于增强大型语言模型的方法,它通过结合推理(Reasoning)和行动(Acting)来增强推理和决策的效果。
[图:ReAct 循环流程]
案例分析:考虑一个名为'市场分析师'的智能体,其任务是为一家公司制定年度市场推广计划。该智能体首先将年度计划拆解为季度目标,再细分为月度活动。它规划了每个活动的关键绩效指标(KPIs)和执行时间表。在执行过程中,智能体持续监控活动效果,根据反馈调整策略,并在年底进行总结,以优化下一年度的计划。
记忆是智能体存储和回忆信息的能力,它分为短期记忆和长期记忆:
案例分析:以'个人助理'智能体为例,它需要帮助用户管理日常任务和提醒。短期记忆中可能包含今天的会议安排,而长期记忆则存储用户的个人喜好和历史任务记录。当用户询问明天是否有重要事件时,智能体从长期记忆中检索信息,并结合短期记忆中的日程安排给出回答。
智能体能够使用各种工具 API,如搜索引擎、代码执行器等,与物理世界进行交互:
Function Calling 是一种实现大型语言模型连接外部工具的机制。通过 API 调用 LLM 时,调用方可以描述函数,包括函数的功能描述、请求参数说明、响应参数说明,让 LLM 根据用户的输入,合适地选择调用哪个函数,同时理解用户的自然语言,并转换为调用函数的请求参数(通过 JSON 格式返回)。调用方使用 LLM 返回的函数名称和参数,调用函数并得到响应。最后,如果需要,把函数的响应传给 LLM,让 LLM 组织成自然语言回复用户。
function calling 具体工作流程:
[图:Function Calling 流程图]
案例分析:设想一个'智能家居控制系统'的智能体,它负责控制家中的智能设备。该智能体使用 API 与各种设备(如灯光、温度控制器、安全系统)交互,根据用户的需求和习惯自动调节家居环境。例如,当用户回家时,智能体通过工具 API 自动打开照明、调整室内温度,并确保安全系统处于解除状态。
当前智能体开发框架的出现,极大地简化了智能体的创建过程。如记忆能力、规划能力、RAG 能力、大模型调用等智能体框架。使得开发者能够快速搭建出功能丰富的智能体。
根据 awesome-ai-agents 的整理,无论是开源的还是闭源的,智能体应用框架在各个领域,比如自定义智能体、编码、研究、数据分析、多智能体等等,都有比较有代表性的产品可供选择。常见的框架包括 LangChain、LlamaIndex、AutoGen 等。
[图:主流智能体框架对比]
尽管智能体技术前景广阔,但仍面临诸多挑战:
未来,随着模型能力的提升和基础设施的完善,智能体将在更多垂直领域落地,成为人机协作的核心载体。
智能体(Agent)作为大模型时代的 AI 革新者,正逐步从概念走向现实。它们不仅能够扩展大模型的能力,更能够与人类紧密协作,共同创造更加智能的未来。通过掌握规划、记忆和工具使用这三大核心能力,开发者可以构建出真正具有自主性的智能应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online