AI Agent 是什么
AI Agent(智能体)是指能够感知环境、进行决策并执行行动以达成目标的自主系统。将大语言模型(LLM)的思想链接到一起,使其能够自主实现用户设定的任何目标。例如,只需告诉 AutoGPT 一个目标,它就能自主生成并执行计划。
正如吴恩达所言:'与其争论哪些工作才算是真正的 Agent,不如承认系统可以具有不同程度的 Agentic 特性。'
核心在于将复杂任务分解成多个步骤,并通过循环迭代的方式逐步优化结果。这种工作方式更接近于人类解决问题的思维模式:
- 目标设定:明确任务目标;
- 规划分解:将任务分解成多个子任务;
- 迭代执行:依次执行每个子任务,并根据反馈结果进行调整和优化,最终完成目标。
通用公式可表示为:Agent = LLM + Planning(规划) + Tool Use(工具使用) + Feedback(反馈纠正偏差)
Agent 的组成部分
一个完整的 Agent 系统通常包含以下核心模块:
- 感知模块:接收来自环境的输入信息。
- 记忆模块:包含短期记忆(上下文窗口)和长期记忆(向量数据库存储的历史经验)。
- 规划模块:负责制定策略和分解任务。
- 执行模块:调用外部工具或 API 完成任务。
- 反思模块:评估执行结果并进行自我修正。

Agent 的规划决策(Planning)
每种规划方式都高度依赖于提示词工程(Prompt Engineering)的设计。
任务分解
思维链 CoT (Chain of Thought)
CoT 是一种提示词工程方法,会显示输出中间逐步的推理过程,增加大模型的算术、常识和推理能力。它成为了处理复杂任务的常用手段。

思维树 ToT (Tree of Thoughts)
ToT 可以让 LLM:
- 自己给出多条不同的推理路径;
- 分别进行评估后,决定下一步的行动方案;
- 在必要时向前或向后追溯,以便实现全局的决策。
ToT 比 CoT 的正确率大大提高,适用于需要多步推理和回溯的场景。

反思与改善
ReAct (Reasoning + Acting)
ReAct 是一种提示词工程方法,它使用小样本学习来教导模型如何解决问题。
ReAct 三个核心概念:

