AI Agent 是什么
AI Agent(智能体)是指能够感知环境、进行决策并执行行动以达成目标的自主系统。将大语言模型(LLM)的思想链接到一起,使其能够自主实现用户设定的任何目标。例如,只需告诉 AutoGPT 一个目标,它就能自主生成并执行计划。
正如吴恩达所言:'与其争论哪些工作才算是真正的 Agent,不如承认系统可以具有不同程度的 Agentic 特性。'
核心在于将复杂任务分解成多个步骤,并通过循环迭代的方式逐步优化结果。这种工作方式更接近于人类解决问题的思维模式:
- 目标设定:明确任务目标;
- 规划分解:将任务分解成多个子任务;
- 迭代执行:依次执行每个子任务,并根据反馈结果进行调整和优化,最终完成目标。
通用公式可表示为:Agent = LLM + Planning(规划) + Tool Use(工具使用) + Feedback(反馈纠正偏差)
Agent 的组成部分
一个完整的 Agent 系统通常包含以下核心模块:
- 感知模块:接收来自环境的输入信息。
- 记忆模块:包含短期记忆(上下文窗口)和长期记忆(向量数据库存储的历史经验)。
- 规划模块:负责制定策略和分解任务。
- 执行模块:调用外部工具或 API 完成任务。
- 反思模块:评估执行结果并进行自我修正。

Agent 的规划决策(Planning)
每种规划方式都高度依赖于提示词工程(Prompt Engineering)的设计。
任务分解
思维链 CoT (Chain of Thought)
CoT 是一种提示词工程方法,会显示输出中间逐步的推理过程,增加大模型的算术、常识和推理能力。它成为了处理复杂任务的常用手段。

思维树 ToT (Tree of Thoughts)
ToT 可以让 LLM:
- 自己给出多条不同的推理路径;
- 分别进行评估后,决定下一步的行动方案;
- 在必要时向前或向后追溯,以便实现全局的决策。
ToT 比 CoT 的正确率大大提高,适用于需要多步推理和回溯的场景。

反思与改善
ReAct (Reasoning + Acting)
ReAct 是一种提示词工程方法,它使用小样本学习来教导模型如何解决问题。
ReAct 三个核心概念:
- 思考 (Thought):是 LLM 产生下次行为的理由;
- 行动 (Act):LLM 生成的需要执行的具体行为;
- 观察 (Observation):反馈信息会继续输入到 LLM 帮助下一步决策。
缺点:
- 完成 k 步,长度很长需要较大的上下文窗口,需要消耗大量 token;
- 由于工具种类的多样以及输出的不稳定,在 LLM 被广泛使用的指令微调中很难迁移泛化性的工具使用能力到小模型上(可以说,指令微调不可避免的会导致让小模型'背住'训练集中的工具输出)。
ReWOO (Reasoning Without Observation)
将推理过程与外部观察分离,从而减少 token 的消耗。ReWOO 分成三个独立的模块:
- Solver:分解任务,制定一个相互依存的规划蓝图,每个任务都分给 Worker;
- Worker:从工具中检索结果;
- Solver:综合所有规划和结果,生成初始任务的最终答案。
AI Agent 和 LLM 的对比
AI Agent 是基于多个大模型实现的增强系统。
训练方式
- LLM(大语言模型):通常基于监督学习算法进行训练,能够根据事先设定的规则进行行为决策,适用于已知的环境和任务。
- Agent:通常基于强化学习算法进行训练,能够通过与环境的交互来学习最优的行为决策,适用于未知的环境和任务。
功能定位
- LLM:是一种基于海量文本数据进行训练的人工智能模型,旨在理解和生成人类语言。它具有庞大的参数规模,能够学习语言数据中的复杂模式,执行文本总结、翻译、情感分析等任务。LLM 的特点包括长期记忆和短期记忆模块,能够记住大量的上下文信息,并在执行任务时调用相关知识。
- Agent:是一种在分布式系统或协作系统中能够持续自主发挥作用的计算实体。广义上,Agent 指具有智能的任何实体,可以是计算机硬件或软件。Agent 具有自治性、社交能力、反应能力和预动能力等特性,能够在没有其他 Agent 干预的情况下运作,并与其他 Agent 进行交互。
应用场景
- LLM:更偏向于事先设定好的规则和任务,适用于已知的环境和任务。
- Agent:更注重自主学习和适应能力,适用于未知的环境和任务。
形态
- LLM 和 Agent 都可以实现为一个对话系统。
- LLM 只响应用户的查询指令,实现一些生成任务,比如生成代码、文章。
- Agent 则能主动发起行动,调用工具,改变环境状态。
Agent 开源的项目
AutoGPT
以 LLM 作为主控制器来建立 AI Agents,作者提供了很多 API 代码来解析数据格式,帮助 AI agents 更好的理解和处理自然语言(NL),目前还处于试验的阶段。AutoGPT 是开源的,是由 GPT-4 驱动。
执行流程:
- 任务定义:通过 name+role+goal 组成 prompt;
- 理解任务:ChatGPT 对 prompt 通过大模型进行语义理解;
- 生成方案:ChatGPT 输出详细的一步一步(step-by-step)解决方案;
- 生成指令:LLM 根据规划 plan 生成可执行的操作或指令;
- 执行指令:调用外部工具或者 ChatGPT 完成任务;
- 输出结果:指令操作完成后,系统返回执行结果;
- 评估结果:AI 会评估结果以确定是否达到预期目标或是否需要进一步完善。
BabyAGI
通过运行一个无限循环来工作,该循环执行以下流程:
- 从任务列表中提取第一个任务;
- 将任务发送给执行代理,该代理使用 Open API 根据上下文完成任务;
- 整理结果并将结果存储在 Pinecone 中;
- 基于目标和前一个任务的结果创建新任务,并根据优先级对任务列表进行排序。
HuggingGPT
LLM 作为中心 Agent,模型作为 Tool 和 Action,执行分为以下 4 个阶段:
- 任务规划:LLM 把用户要求分解成任务集合,决定执行顺序和任务之间的资源依赖;
- 模型选择:把任务安排给对应的模型;
- 任务执行:模型执行任务;
- 响应生成:LLM 集成模型生成结果,返回给用户。
LangChain & AutoGen
除了上述项目,LangChain 和 Microsoft AutoGen 也是构建 Agent 的重要框架。
- LangChain:提供了一套用于构建 LLM 应用的组件库,支持链式调用、记忆管理、工具集成等功能。
- AutoGen:专注于多 Agent 对话协商,允许不同角色的 Agent 之间自动协作完成任务。
Agent 系统设计和业务应用
设计一个 Agent,自动选择使用以下工具回答用户的问题:
- 查看目录下的文件;
- 基于给定的文档回答用户问题;
- 查看与分析 Excel 文件;
- 撰写文档;
- 调用 Email 客户端发邮件。
在实际业务中,Agent 可用于自动化客服、数据分析报告生成、代码辅助编写等场景。
AI Agent 现状与挑战
当前效果存在很大的局限性,因为上下文 token 有限,记忆功能容易丢失,另外是一个复杂的系统,所以特别消耗内存。
执行效率
- 需要多次与外界进行交互,LLMs 消耗资源大;
- 通过 Agent 自行探索并完成整个解决过程仍然比较繁琐时,也容易把问题复杂化。
依赖 LLM
- 所用技术严重依赖于 LLM 基础能力,基座模型的能力决定了 Agent 的上限。
训练方式与效果
- 错误积累:前面的一些步骤导致偏差,致使后续步骤越走越远(Error Accumulation)。
- 幻觉问题:Agent 可能会编造不存在的工具或参数。
安全与隐私
- Agent 拥有执行权限,若被恶意利用可能导致数据泄露或系统破坏。
- 需要建立严格的权限控制和审计机制。
未来展望
随着多模态能力的增强和推理速度的提升,AI Agent 将更加成熟。
- 多模态融合:Agent 将不仅能处理文本,还能直接理解图像、音频和视频,实现更全面的感知。
- 长期记忆增强:结合 RAG(检索增强生成)和向量数据库,解决上下文窗口限制,实现真正的长期记忆。
- 人机协作深化:从完全自主转向人机协同(Human-in-the-loop),在关键决策点引入人工确认,平衡效率与安全。
- 垂直领域专用 Agent:针对医疗、法律、金融等特定领域训练的专用 Agent 将涌现,提供更精准的服务。
结语
AI Agent 代表了人工智能从被动响应向主动服务的重要转变。虽然目前仍面临成本、稳定性和安全性等挑战,但随着技术的演进,Agent 将成为连接数字世界与现实世界的关键桥梁。开发者应关注主流框架的动态,同时重视伦理规范和安全边界的建设。