MRKL(Modular Reasoning, Knowledge and Language):MRKL 可以理解为是一种构建 AI 的方式,用于自主代理的神经符号结构,它将推理、知识理解和语言能力作为不同的模块来处理。就像搭积木,每个积木代表 AI 的一个能力,组合在一起就能让 AI 进行复杂的思考和交流。
TALM(Tool Augmented Language Models):TOOL 增强的语言模型,是指通过工具或技术来增强的语言处理模型,通常通过微调来实现。例如,一个 AI 聊天机器人,通过接入搜索引擎或其他数据库,能够更准确地回答问题或提供信息。
子目标与分解(Subgoal and decomposition):在解决问题时,Agent 经常会把一个大目标分解成几个小目标(子目标),从而实现对复杂任务的高效处理。比如,准备一顿晚餐,你可能需要先去购物(子目标 1),然后准备食材(子目标 2),最后烹饪(子目标 3)。
反思与完善(Reflection and refinement):Agent 可以对历史的动作进行自我批评和自我反思,从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量。就像写完一篇文章后,你回顾并修改语法错误或不清晰的表达,使文章更加完善。
我们看见的 AI Agent 往往以问答机器人作为交互入口,通过自然语言触发全自动的工作流,中间没有人工介入。由于人只负责发送指令,并不参与对 AI 结果的反馈。
1.2.3 为什么需要 AI Agent
LLM 的一些缺点:
会产生幻觉
结果并不总是真实的
对时事的了解有限或一无所知
很难应对复杂的计算
没有行动能力
没有长期记忆能力
比如让 ChatGPT 买一杯咖啡,ChatGPT 给出的反馈一般类似'无法购买咖啡,它只是一个文字 AI 助手'之类的回答。但你要告知基于 ChatGPT 的 AI Agent 工具让它买一杯咖啡,它会首先拆解如何才能为你购买一杯咖啡并拟定代用某 APP 下单以及支付等若干步骤,然后按照这些步骤调用 APP 选择外卖,再调用支付程序下单支付,过程无需人类去指定每一步操作。这就是 AI Agent 的用武之地,它可以利用外部工具来克服这些限制。这里的工具是什么呢?工具就是代理用它来完成特定任务的一个插件、一个集成 API、一个代码库等等,例如:
Google 搜索:获取最新信息
Python REPL:执行代码
Wolfram:进行复杂的计算
外部 API:获取特定信息
而 LangChain 则是提供一种通用的框架通过大语言模型的指令来轻松地实现这些工具的调用。我们都知道在执行一个复杂的任务时,我们需要考虑多方面的影响因素,将复杂任务拆分为细小的子任务去执行。AI Agent 的诞生就是为了处理各种复杂任务的,就复杂任务的处理流程而言 AI Agent 主要分为两大类:行动类、规划执行类。总而言之,AI Agent 就是结合大模型能去自动思考、规划、效验和执行的一个计算体,以完成特定的任务目标,如果把大模型比作大脑,那 AI Agent 可以理解为小脑 + 手脚。
1.2.4 AI Agent 对比人类与其它 AI 协同的区别
AI Agent 较日前广泛使用的 Copilot 模式更加独立。对比 AI 与人类的交互模式,目前己从过去的嵌入式工具型 AI(例如 siri)向助理型 AI 发展。目前的各类 AI Copilot 不再是机械地完成人类指令,而是可以参与人类工作流,为诸如编写代码、策划活动、优化流程等事项提供建议,与人类协同完成。而 AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建 prompt,来实现目标。如果说 Copilot 是'副驾驶',那么 Agent 则可以算得上一个初级的'主驾驶'。
1.3 AI Agent 案例
1.3.1. AI 虚拟小镇
临近情人节,生活在名为'Smallville'小镇上的咖啡店长伊莎贝拉试图举办一场情人节派对,她邀请了自己的闺蜜玛利亚一起布置派对,而玛利亚得知有这么一场派对后,偷偷邀请了暗恋对象克劳斯一同前往……在小镇的同一时间线上,年近六旬的汤姆对小镇即将举办的市长选举有着强烈的兴趣,作为一名对政治格外关心的已婚中年男人,他拒绝了伊莎贝拉的情人节派对邀请。以上情节并未发生在现实世界,但也不是人类编造的虚构剧情,它来自一个由 25 名 AI 角色组成的虚拟小镇。而这个小镇上发生的任何事件,都是 AI 之间通过互动随机生成的结果,目前这个小镇已经井井有条地运转了两天。
AI Agent 与大模型的一大区别在于能够使用外部工具拓展模型能力。懂得使用工具是人类最显著和最独特的地方,同样地,也可以为大模型配备外部工具来让模型完成原本无法完成的工作。ChatGPT 的一大缺点在于,其训练数据只截止到了 2021 年底,对于更新一些的知识内容它无法直接做出回答。虽然后续 OpenAI 为 ChatGPT 更新了插件功能,能够调用浏览器插件来访问最新的信息,但是需要用户来针对问题指定是否需要使用插件,无法做到完全自然的回答。AI Agent 则具备了自主调用工具的能力,在获取到每一步子任务的工作后,Agent 都会判断是否需要通过调用外部工具来完成该子任务,并在完成后获取该外部工具返回的信息提供给 LLM,进行下一步子任务的工作。OpenAI 也在 6 月为 GPT-4 和 GPT-3.5 更新了函数调用的功能,开发者现在可以向这两个大模型描述函数,并让模型智能地选择输出包含调用这些函数的参数的 JSON 对象。这是一种更可靠地将 GPT 的功能与外部工具和 API 相连的新方法,允许开发者更可靠地从模型中获得结构化的数据,为 AI 开发者提供了方便。实现调用工具的方法就是编写大量的工具调用数据集来进行模型的微调。
总结一下 AI Agent 的原理主要包括感知、分析、决策和执行四大能力。这些能力相互协同,构成了 AI Agent 的基本工作原理。首先是感知能力,通过传感器获取外部环境的信息,使 AI Agent 能够对周围的情况有所了解。其次是分析能力,通过对感知到的信息进行分析和处理,提取有用的特征和模式。然后是决策能力,AI Agent 基于分析结果进行决策,制定相应的行动计划。最后是执行能力,将决策转化为具体的行动,实现任务的完成。这四大能力相互配合,使得 AI Agent 能够在复杂的环境中高效地运行和执行任务。
HyperWrite 推出首个个人 AI 助理 Agent。2023 年 8 月 3 日,人工智能初创公司 HyperWrite 正式推出了 AI Agent 的应用 Personal Assistant,希望可以成为人类的'数字助手'。作为 HyperWrite 的投资者,生成式 AI 初创企业 Cohere 联合创始人 Aidan Gomez 表示:'我们将开始第一次看到真正的个人 AI 助理'。作为个人助理 Agent,它可以帮助用户整理邮箱并起草回复、帮助用户订机票、订外卖、整理领英上适合的简历等,将 AI 能力无缝接入到用户的日常生活和工作流中。目前该工具还处于试用阶段,主要适用于网页浏览器场景。
Personal Assistant 可以自主在浏览器中完成指定任务。Personal Assistant 现在是以浏览器拓展插件的形式来提供服务的,用户在安装完插件并注册账户后即可开始试用。其初始页面类似于 New Bing 这样的搜索引擎,仅提供一个自然语言交互的聊天框。用户输入其想要完成的目标后,该插件就会新建一个浏览器页面,并在页面以侧边栏形式展示其进行的每一步操作与思路。以'给我一些美国现在关于 AI Agent 的新观点'这一目标为例,该个人助理会先去进行相关的搜索,然后打开相关的文章页面进行阅读并总结观点,在完成阅读和总结后,它会将结果汇总并返回到聊天框中,整体用时约为 2 分钟。目前个人 AI 助理能力仍旧有限,但潜力可期。
目前 HyperWrite Personal Assistant 仅为 0.01 版本,其功能仍相对有限,也存在一些出错的问题,并且响应过程也较为缓慢。但我们认为,AI Agent 自此迈出了走向个人消费者领域的第一步,随着未来大模型能力的进一步提升,以及算力基础设施的不断普惠,个人 AI 助理的发展潜力值得期待。
3.4. ModelScopeGPT:国内大模型调用工具
ModelScopeGPT 是阿里云 MaaS 范式在模型使用层的重要映射,旨在建立大模型生态。阿里云表示,构建 ModelScopeGPT 的数据集和训练方案将会对外开放,供开发者自行调用,开发者可以根据需要对不同的大模型和小模型进行组合,帮助开发者多、快、好、省地使用大模型。目前在 AI 开发者圈,魔搭社区已成中国大模型第一门户。所有模型生产者都可以上传自己的模型,验证模型的技术能力和商业化模式,并与其他社区模型进行协作,共同探索模型应用场景。ModelScopeGPT 则实现了将模型生产力进行自由组合,继续强化阿里云在大模型生态建设中的领先地位。
3.5. Inflection AI:高情商个人 AI — Pi
Inflection AI 推出主打情感陪伴的个人 AI—Pi。Inflection AI 是一家成立于 2022 年的人工智能初创公司,目前公司的估值已经突破 40 亿美元,在人工智能领域仅次于 OpenAI。在 2023 年 5 月,公司推出了旗下的个人 AI 产品 Pi。与 ChatGPT 不同,Pi 从未以专业性与替代人工作为宣传。它不能写代码,也不能帮我们生产原创内容,与时下流行的通用聊天机器人相反,Pi 只能进行友好的对话,提供简洁的建议,甚至只是倾听。它的主要特征是富有同情心、谦虚好奇、幽默创新,具有良好的情商,可以根据用户的独特兴趣和需求提供无限的知识与陪伴。Inflection 自开发 Pi 开始,就确定了 Pi 将作为个人智能(Personal Intelligence),而不仅仅是辅助人工作的工具。
Pi 的核心是公司研发的 Inflection-1 大模型,性能媲美 GPT-3.5。Inflection-1 是 Inflection AI 推出的大模型,根据公司的评估测试,Inflection-1 在多任务语言理解、常识问题等多项测试中的性能都略胜于 GPT-3.5、LLaMA 等常用的大模型,但在代码能力上要落后于 GPT-3.5。不过这是公司的差异化竞争所在,Pi 作为一个以情感陪伴为主的 Agent 并不需要拥有很强的代码和辅助工作能力。
和辅助工作的 Agent 不同,Pi 能够满足更多的情感陪伴需求。作为一个具有高情商的 AI Agent,Pi 能够以更加日常和生活化的语言和用户进行交流,而不是以一个冰冷的工作 AI 的口吻。Pi 的回复非常贴近生活,语气十分得体,而它对你当下状态和事态发展的关心就像心理医生或者你最好的朋友。当 Pi 在回复可能带有负面情绪的问题时,它也会避免使用任何俏皮的表情或者轻快的口吻去冒犯用户。它甚至会在回复中使用 emoji,让用户觉得更像是和真正的人类在进行对话一样。Pi 还能够记住与用户的对话内容,并随着时间的推移而更加了解用户。Pi 的出现,弥补了传统型人工智能对人类情绪欲望的忽视。我们认为,类似于 Pi 这样能够提供情绪价值的个人 AI Agent 存在着较大的市场空间。
《AIGC 应用层十大趋势》报告中调研表明,所有企业都认为 AI Agent 是 AIGC 发展的确定性方向,50% 的企业已经在某项工作中进行了 AI Agent 的试点,另有 34% 的企业正在制定 AI Agent 的应用计划。这个报告,也对 AI Agent 发展趋势做了两点预测:AI Agent 让'人机协同'成为新常态,个人与企业步入 AI 助理时代。AI Agent 能够帮助未来企业构建以'人机协同'为核心的智能化运营新常态。AI Agent 变革未来生产力的组织形式,对抗组织熵增。未来企业工作任务将在 AIGC 的助推作用下变得日益原子化和碎片化,复杂的流程将被无限拆解,再进行灵活的编排和组合,每个环节的效能和潜力都将被 AI 持续挖掘。从供给端看,'人 + AI 数字员工'的高效协同模式将为大型企业对抗组织熵增提供理想的解法。
4.1. 自主智能体:自动化,新一轮生产力革命
自主智能体,力图实现复杂流程自动化。真格基金管理合伙人戴雨森将 AI 和人类协作的程度类比为自动驾驶的不同阶段,AI Agent 约为自动驾驶的 L4 阶段,Agent 完成任务,人进行外部辅助和监督。自主智能体有望带来软件行业交互方式和商业模式变革:
研究机构认为国内情绪消费市场仍有较大想象空间(社会婚姻观念转变、现代工作生活节奏紧张下,国民孤独感增加),陪伴类智能体或受益于情绪消费趋势红利,成为 LLM 时代重要的 AI 原生应用。从用户陪伴性需求的第一性原理出发,我们预计陪伴类智能体大部分商业价值集中在 IP 上,基于此我们更加看好当前具备丰富 IP 储备或者能让用户定制智能体的玩家:
AI Agent 正从概念走向落地,通过整合大模型推理、规划、记忆与工具调用能力,实现了从被动响应到主动执行的跨越。未来,自主智能体将推动复杂流程自动化,重塑人机交互与商业模式;而智能体模拟则将在情感陪伴与虚拟世界中提供新的精神消费体验。随着技术成熟,AI Agent 将成为人机协同新常态下的核心生产力。