LLM 驱动的智能体框架、应用探索与未来展望

AI Agent 框架（LLM Agent）：LLM 驱动的智能体如何引领行业变革，应用探索与未来展望

AI Agent 框架示意图

1. AI Agent（LLM Agent）介绍

1.1. 术语

Agent：'代理'通常是指有意行动的表现。在哲学领域，Agent 可以是人、动物，甚至是具有自主性的概念或实体。
AI Agent：AI Agent（人工智能代理）是一种能够感知环境、进行决策和执行动作的智能实体。
RPA：RPA (Robotic Process Automation) 即机器人流程自动化，是一种软件自动化技术。RPA 通过模仿人类在电脑上的手动操作，如打开网站、点击鼠标、键盘输入等，实现业务流程的自动化。RPA 系统可以自动处理大量重复的、基于规则的工作流程任务，例如在银行中，纸质文件输入、文件票据验证、从电子邮件和文件中提取数据、跨系统数据迁移、自动化 IT 应用操作等。RPA 的主要优势包括减少劳动成本、提高生产力、出错率低、可监控的操作和开发周期短。它可以在金融、办公自动化、IT 流程自动化等多个领域发挥重要作用。
Copilot：即飞机的'副驾驶'，这里 Copilot 指依托于底层大语言模型（LLM），用户只需说几句话，做出指示，它就可以创建类似人类撰写的文本和其他内容。
LangChain：LangChain 是一个强大的框架，旨在帮助开发人员使用语言模型构建端到端的应用程序，它提供了一套工具、组件和接口，可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 是一个语言模型集成框架，其使用案例与语言模型的使用案例大致重叠，包括文档分析和摘要、聊天机器人和代码分析。
LLM：大型语言模型（LLM）是一种人工智能（AI）算法，它使用深度学习技术和大量大型数据集来理解、总结、生成和预测新内容。
感知记忆（Sensory Memory）：感知记忆是信息处理的第一个阶段，它涉及对通过感官接收的信息进行短暂的存储。感知记忆通常只持续几百毫秒到几秒。就像你看到一张美丽的风景照片，感知记忆是大脑对刚刚通过感官接收到的信息的短暂存储。比如，你闭上眼睛后，还能在脑海中短暂地'看到'那张照片的颜色和形状，这就是感知记忆在起作用。
短期记忆（Short-term memory）：短期记忆就像是你的心智工作台，它能够暂时存储和处理少量信息。比如，当你试图记住一个电话号码时，你可能会重复念叨这个号码，直到你拨打它，这就是短期记忆在工作。所有的上下文学习（In-context Learning）都是利用模型的短期记忆来学习。
长期记忆（Long-term memory）：长期记忆就像是一个大仓库，能够存储我们的经验、知识和技能，而且这个存储时间可以非常长，甚至是一生。比如，你学会骑自行车的技能，即使多年不骑，你仍然记得怎么骑，这就是长期记忆。Agent 一般通过外部向量存储和快速检索实现。
Memory Stream：'记忆'存储了 Agent 过去的观察、思考和行动序列。正如人脑依靠记忆系统来回溯利用先前的经验制定策略和做出决策一样，Agent 也需要特定的记忆机制来确保其熟练处理一系列连续任务。
MRKL（Modular Reasoning, Knowledge and Language）：MRKL 可以理解为是一种构建 AI 的方式，用于自主代理的神经符号结构，它将推理、知识理解和语言能力作为不同的模块来处理。就像搭积木，每个积木代表 AI 的一个能力，组合在一起就能让 AI 进行复杂的思考和交流。
TALM（Tool Augmented Language Models）：TOOL 增强的语言模型，是指通过工具或技术来增强的语言处理模型，通常通过微调来实现。例如，一个 AI 聊天机器人，通过接入搜索引擎或其他数据库，能够更准确地回答问题或提供信息。
子目标与分解（Subgoal and decomposition）：在解决问题时，Agent 经常会把一个大目标分解成几个小目标（子目标），从而实现对复杂任务的高效处理。比如，准备一顿晚餐，你可能需要先去购物（子目标 1），然后准备食材（子目标 2），最后烹饪（子目标 3）。
反思与完善（Reflection and refinement）：Agent 可以对历史的动作进行自我批评和自我反思，从错误中吸取教训，并为未来的步骤进行改进，从而提高最终结果的质量。就像写完一篇文章后，你回顾并修改语法错误或不清晰的表达，使文章更加完善。

问题：除了 Apple 遥控器，还有什么其他设备可以控制相关软件？相关软件指的是 Apple 遥控器最早可以控制的软件。说明： 1.Apple 遥控器最早只能控制 Front Row 软件。 2.Front Row 软件可以被两种设备控制，Apple 遥控器和键盘的功能键。 3.所以，正确答案是键盘的功能键。传统方式 1，直接问 LLM。得到结果： iPod。答案错误，显然是在胡言乱语。因为 LLM 的内容生成，是根据之前所有的字预测后续内容，所以，我推测，出现这个结果很可能因为，LLM 其实并不知道相关答案，只是 Apple 遥控器和 iPod 的语义很接近，所以才得出 iPod 这个结论。传统方法 2，思维链。得到结果：想法：让我们一步一步思考这个问题。Apple 遥控器可以控制 Apple 电视。Apple 电视可以被 iPhone、iPad 和 iPod Touch 控制。答案：iPhone、iPad 和 iPod Touch 控制。答案错误，思维链范式，其实也是在胡编，因为它不知道答案。传统方法 3，动作范式。得到结果：动作 1：搜索【Apple 遥控器】结果 1：Apple 遥控器是一种遥控器……最早可以控制'Front Row'…… 动作 2：搜索【Front Row】结果 2：无结果动作 3：搜索【Front Row 软件】结果 3：FrontRow 是一种过时软件…… 动作 4：完成【是的】答案错误，动作范式，即隐式推理，也没有得到正确答案。不难理解，隐式推理对 LLM 的推理能力要求很高，因为他会隐去思考过程。我觉得当 LLM 推理能力达到一定程度时，应该也能得出正确答案。 ReAct 方法，即推理 + 动作。得到结果：想法 1：我需要搜索 Apple 遥控器，并找到 Apple 遥控器最早可以控制的软件。动作 1：搜索【Apple 遥控器】结果 1：Apple 遥控器是一种遥控器……最早可以控制'Front Row'…… 想法 2：Apple 遥控器最早可以控制 Front Row。我需要搜索 Front Row 下一步，找出还有什么其他设备可以控制他动作 2：搜索【Front Row】结果 2：无结果，可以试试'Front Row Seat to Earth'和'Front Row 软件' 想法 3：Front Row 没有找到，我可以搜索'Front Row 软件' 动作 3：搜索【Front Row 软件】结果 3：FrontRow 是一种过时软件……可以被 Apple 遥控器和键盘功能键控制。想法 4：现在我知道答案了。动作 4：完成【键盘功能键】答案正确。通过显式推理，加上动作，LLM Agent 自主找到了答案。整个过程感觉就像是个不是特别聪明的孩子，要把想法写出来，然后去综合所有想法和观察，接着再做出相应的动作。但显然这个方法很有效，它最终找到了答案。

LLM 驱动的智能体框架、应用探索与未来展望

AI Agent 框架（LLM Agent）：LLM 驱动的智能体如何引领行业变革，应用探索与未来展望

1. AI Agent（LLM Agent）介绍

1.1. 术语

更多推荐文章

相关免费在线工具

1.2. Agent 这个词意义、什么是 Agent

1.2.1 Agent 由来

1.2.2 什么是 AI Agent

1.2.3 为什么需要 AI Agent

1.2.4 AI Agent 对比人类与其它 AI 协同的区别

1.3 AI Agent 案例

1.3.1. AI 虚拟小镇

1.3.2. AutoGPT 做市场调研

2. AI Agent 的框架

2.1. 大模型 + 规划：Agent 的'大脑'，通过思维链能力实现任务分解

思维链（Chain of Thoughts）

思维树（Tree of Thoughts）

ReAct(!)

Reflexion

2.2. 记忆：用有限的上下文长度实现更多的记忆

2.3. 工具：懂得使用工具才会更像人类

3. AI Agent 的应用进展

3.1. AutoGPT：推动 AI Agent 研究热潮

3.2. 游戏领域应用：西部世界小镇

3.3. HyperWrite：推出首个个人 AI 助理 Agent

3.4. ModelScopeGPT：国内大模型调用工具

3.5. Inflection AI：高情商个人 AI — Pi

3.6. AgentBench：LLM 的 Agent 能力评估标准

3.7 AI Agent 在安全业务里应用场景

4. AI Agent 未来发展趋势判断

4.1. 自主智能体：自动化，新一轮生产力革命

4.2. 智能体模拟：拟人化，新的精神消费品

4. 总结

更多推荐文章

相关免费在线工具

LLM 驱动的智能体框架、应用探索与未来展望

AI Agent 框架（LLM Agent）：LLM 驱动的智能体如何引领行业变革，应用探索与未来展望

1. AI Agent（LLM Agent）介绍

1.1. 术语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2. Agent 这个词意义、什么是 Agent

1.2.1 Agent 由来

1.2.2 什么是 AI Agent

1.2.3 为什么需要 AI Agent

1.2.4 AI Agent 对比人类与其它 AI 协同的区别

1.3 AI Agent 案例

1.3.1. AI 虚拟小镇

1.3.2. AutoGPT 做市场调研

2. AI Agent 的框架

2.1. 大模型 + 规划：Agent 的'大脑'，通过思维链能力实现任务分解

思维链（Chain of Thoughts）

思维树（Tree of Thoughts）

ReAct(!)

Reflexion

2.2. 记忆：用有限的上下文长度实现更多的记忆

2.3. 工具：懂得使用工具才会更像人类

3. AI Agent 的应用进展

3.1. AutoGPT：推动 AI Agent 研究热潮

3.2. 游戏领域应用：西部世界小镇

3.3. HyperWrite：推出首个个人 AI 助理 Agent

3.4. ModelScopeGPT：国内大模型调用工具

3.5. Inflection AI：高情商个人 AI — Pi

3.6. AgentBench：LLM 的 Agent 能力评估标准

3.7 AI Agent 在安全业务里应用场景

4. AI Agent 未来发展趋势判断

4.1. 自主智能体：自动化，新一轮生产力革命

4.2. 智能体模拟：拟人化，新的精神消费品

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具