
电影《钢铁侠》中的智能助手 J.A.R.V.I.S.为我们描绘了一个未来 AI Agent 的雏形。J.A.R.V.I.S.不仅拥有强大的数据处理能力,还能精准理解并执行主人的指令,甚至能在关键时刻提供关键建议。从这位虚拟助手的身影出发,基于 LLM 的 AI Agent,正逐步从银幕走进现实,成为我们生活与工作中不可或缺的一部分。

一、LLM Agent 概述
什么是 LLM Agent?
大模型 Agent 是一种构建于大型语言模型(LLM)之上的智能体,它具备环境感知能力、自主理解、决策制定及执行行动的能力。Agent 是能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标。在技术架构上,Agent 从面向过程的架构转变为面向目标的架构,旨在通过感知、思考与行动的紧密结合,完成复杂任务。

核心组成:规划、记忆、工具与行动
大模型 Agent 由规划、记忆、工具与行动四大关键部分组成,分别负责任务拆解与策略评估、信息存储与回忆、环境感知与决策辅助、以及将思维转化为实际行动。

1. 规划(Planning)
定义:规划是 Agent 的思维模型,负责拆解复杂任务为可执行的子任务,并评估执行策略。
实现方式:通过大模型提示工程(如 ReAct、CoT 推理模式)实现,使 Agent 能够精准拆解任务,分步解决。例如,使用 Chain of Thought (CoT) 引导模型展示推理步骤,或使用 ReAct (Reasoning + Acting) 框架让模型在推理过程中交替进行思考和行动。
2. 记忆(Memory)
定义:记忆即信息存储与回忆,包括短期记忆和长期记忆。
实现方式:
- 短期记忆:用于存储会话上下文,支持多轮对话,通常通过滑动窗口机制维护最近的 N 轮交互。
- 长期记忆:存储用户特征、业务数据等,通常通过向量数据库(Vector Database)等技术实现快速存取。利用 Embedding 模型将文本转化为向量,存入 Milvus、Chroma 或 Pinecone 等系统中,支持语义检索。
3. 工具(Tools)
定义:工具是 Agent 感知环境、执行决策的辅助手段,如 API 调用、插件扩展等。
实现方式:通过接入外部工具(如 API、插件)扩展 Agent 的能力。例如 ChatPDF 解析文档、Midjourney 文生图、搜索接口查询实时信息等。工具通常以 Function Calling 的形式暴露给 LLM,模型根据意图选择调用哪个函数。





