1. 为什么需要长期记忆?
在人工智能领域,大语言模型(LLM)面临着与人类短期记忆类似的挑战。受限于输入提示(Prompt)的 Token 数量上限,模型无法记住无限长的历史对话或外部知识。为了解决这个问题,一种解决方案是在输出中重复关键信息以创建暂存器,但这并不高效且容易受到上下文窗口限制的影响。
基于 LLM 的原生应用通常包含三个核心元素:LLM 能力、交互机制和记忆系统(专有数据 + 个性化)。因此,构建具备长期记忆能力的自主智能体(Autonomous Agents)和智能体模拟器(Agent Simulations)显得尤为重要。长期记忆能够克服 Token 限制,减少幻觉(Hallucination),并提供持续的学习能力。
2. Autonomous Agents
2.1 什么是 Autonomous Agents?
根据 Matt Schlicht 的定义,自主智能体是由 AI 驱动的程序,当给定一个目标时,能够自行创建任务、完成任务、创建新任务、重新排序任务列表,并循环执行直到目标达成。
例如,给 Agent 一个任务:'发布关于最新进展的推文'。它会先理解并分解目标,制定实施计划及优先级,反思计划漏洞,搜索相关信息,汇总内容,最后自动发送。全过程人类仅需提供初始指令。
其核心技术点包括:
- LLM:核心推理与生成能力。
- Long-term Memory:解决 LLM 固有的上下文限制。
- 递归思想:通过反馈循环不断优化执行路径。
2.2 流行的 Autonomous Agents
2.2.1 LangChain LangChain 是开发 LLM 应用的框架鼻祖,提出了 Agents、Tools、Plugins、Memory 等概念,为生态爆发奠定了基础。
2.2.2 Visual-ChatGPT / TaskMatrix Visual-ChatGPT 将视觉基础模型与 LLM 结合,后合并为 TaskMatrix。此类项目流程可控,负担较轻,适合垂直领域。
2.2.3 HuggingGPT 微软与 HuggingFace 合作的项目,利用 LLM 作为控制器分配任务给特定模型(如文生图用 Stable Diffusion)。流程分为任务规划、模型选择、任务执行、结果生成四步。
2.2.4 AutoGPT 实验性开源程序,展示 GPT-4 的自主功能。它通过'思考 - 计划 - 分配 - 收集 - 输出'的循环实现自我迭代,已具备自主智能体的范畴特征。
2.2.5 BabyAGI 将 LLM 转换为数字助理,可执行互联网任务。工作流程包括提取任务、执行、存储结果到向量数据库、创建新任务并重新排列优先级。
2.2.6 NexusGPT 模拟自由职业者平台,每个 Agent 擅长不同领域,通过雇佣专业 Agent 维持组织运转。这代表了 AI 平权与个性化的发展方向。
3. Agent Simulations
3.1 什么是 Agent Simulations
智能体模拟器通过计算机模拟理解复杂的智能体交互问题,涉及多个智能体之间的相互交互。主要依赖长期记忆和仿真环境。
3.2 流行的 Agent Simulations
3.2.1 CAMEL 提出角色扮演交际智能体框架,利用 LLM 促进自主合作,提供认知过程洞察。使用概念提示引导聊天智能体,保持与人类意图一致。
3.2.2 Generative Agents 斯坦福和谷歌的研究成果,基于深度强化学习模拟人类行为。训练分两个阶段:观察学习策略和执行任务优化决策。被视为'虚拟人类'。
4. Autonomous Agents 和 Agent Simulations 依赖 LLM 的能力
无论是自主智能体还是模拟器,其核心驱动力均为 LLM 的理解、推理及生成能力。Prompt Engineering 的质量直接决定了 Agent 的表现。
5. 向量数据库
为了支持长期记忆,向量数据库(Vector Database)是关键基础设施。它将文本转化为高维向量存储,支持语义检索。
常见的向量索引算法包括:


