unity

AI智能体下一步，模拟人机交互，所有人的工作流将被改变

Ne0inhk

25 Dec 2024 — 20 min read

AI智能体下一步，模拟人机交互，所有人的工作流将被改变

原创马格里布求甚解 2024年11月22日 23:57山东

完全释放AI生产力还需要时间。

年初开始，当前关于AI的焦点正在从chat bot，迅速转向AI agent。

（PS：chat bot也就是智能助理，比如ChatGPT，这些都是聊天机器人。

AI agent，AI代理，在国内主要称之为AI智能体。）

目前几乎所有的AI智能体都是基于大模型运作的。

之前频频出圈的 Devin，被称为“第一位由 AI 担任的软件工程师”，它可以自主的去学会如何使用不熟悉的技术，自主的生成代码、调试bug和部署应用。Devin就是一个典型的AI智能体。

Agent 既可以替代现有的很多软件工具，也可以替代我们去完成工作中繁琐的任务。比如写文案、编短剧、设计图、做视频、码代码等。

OpenAI、微软、meta还有谷歌等等科技巨头都在竞相研究和开发相关的产品。

OpenAI宣称将会在明年1月推出一款能够帮助人类编写代码或者是预定旅游计划的AI智能体。

上月OpenAI的竞争对手anthropic也宣布，他们对Claude 3.5 Sonnet 的模型进行全面改进之后，推出了一个像人类一样操控电脑的AI智能体。通过观看屏幕截图，实现移动光标、点击按钮、使用虚拟键盘输入文本等，进行数十个甚至是数百个步骤来完成特定的任务，真正模拟人类与计算机交互的方式。

今年9月开始，微软悄悄组建起世界最大的AI智能体生态系统，目前已经有包括麦肯锡等超过10万家公司，用Copilot Studio创建了自己的AI智能体。比起聊天机器人那样等待被提问，copilot理能够像虚拟员工一样自动执行任务，比如监控、电子邮件、收件箱等等。随后微软又发布了多款面向企业的AI智能体产品。

google也在研发一个叫做Jarvis的AI智能体项目。将会在chrome浏览器当中运行，通过屏幕截图来分析内容，自动点击按钮或者输入文本等模拟人工操作，比如搜索资料或者网购。

据风投统计机构pitch book的数据显示，过去一年时间里，AI智能体领域的初创公司获得的总投资金额同比增长超过80%，涉及的交易数量也达到了156笔，其中包括可以用于法律行业和处理税务工作的不同功能的AI智能体。

国内外部分智能体平台⬇️（更新）

https://larkcommunity.feishu.cn/share/base/view/shrcnm2JZU0xrErHDB0SqsWHgFg

AI智能体究竟是什么？

Agent 的起源

据大聪明考据，Agent 大概起源于2023 年 2-3 月，标志性事件包括：

AutoGPT 、GPT-Engineer、Langchain等基于自然语言的开源 AI 自动化框架：告诉 AI 一个任务， AI 就会通过自然语言的自我对话，将这个任务进行拆分、规划并实现。

类似ChemCrow、斯坦福小镇的项目实践：给予不同的 Bot 以不同的人格，搭配记忆窗口，让程序间相互对话。

发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》，以及 OpenAI 在 3 月底发布的插件计划：这意味着，大模型从原来的“思想家”，通过对外部工具的使用，变成了“实干家”。

目前Agent研究还处于早期阶段，在AI智能体的确切定义上，科技行业目前还没有达成共识。

不过一个比较常见的观点是，AI智能体是一个更加先进的AI工具，它能够感知周围环境，模拟人类思考与工作，可以独立做出决策，执行步骤繁多且复杂的特定任务。而且能够从反馈中进行学习，同时还可以和其他的软件或者是AI工具进行连接和交互。就像是职场工作当中，简单的工作单独处理，专业问题专家处理，复杂问题协同处理。

AI智能体的未来愿景是成为人类的助手。比如当你想要外出度假的时候，只需要向AI智能体发出一个我想要在某个时间去某个地方度假的指令，它就会自动根据你日常的衣食住行偏好和日程，帮你选出时间最合适的航班价格、最中意的酒店来给你行程规划。

AI Agent的意义在于其能够提高效率、降低成本、增强用户体验，并在某些情况下提供超越人类能力的决策支持。

AI Agent的应用领域：

客户服务（Customer Service）：自动回答客户咨询，提供个性化服务。

医疗诊断（Medical Diagnosis）：辅助医生进行疾病诊断和治疗方案推荐。

智能交通（Intelligent Transportation）：自动驾驶车辆和交通管理系统。

教育辅导（Educational Tutoring）：个性化学习助手，根据学生的学习进度提供辅导。

游戏与娱乐产业（Game &Play):内容创作和玩家互动,如NPC的行为和决策。

Agent的决策流程：PPMA模型

AI Agent的决策流程可以精简为三个基本步骤：感知（Perception）、规划（Planning）、记忆（Memory）和行动（Action），简称为PPMA模型，是Agent智能行为的骨架，支撑着其与环境的交互和自主决策。

感知（Perception）：Agent通过感知系统从环境中收集信息，这些信息可以是文本、图像、声音等多种形式。感知是Agent理解周遭世界的第一条件。例子：在自动驾驶车辆中，感知系统可能包括雷达、摄像头和传感器，它们持续监测周围环境，识别交通标志、行人和其他车辆。

规划（Planning）：在收集到信息后，Agent需要一个规划系统来确定如何达到目标。这个过程涉及到决策制定，将复杂任务分解为可执行的子任务。

例子：一个项目管理AI Agent，根据项目截止日期和资源分配，创建任务列表和时间表，为团队成员分配具体工作。

记忆（Memory）：分为感觉记忆、短期和长期记忆。记忆系统允许Agent获取、存储和检索信息，支持学习和长期知识积累，为Agent提供信息存储和检索的能力。

感觉记忆作为原始输入的嵌入表示，包括文本、图像或其他模态；

短期记忆就像是上下文学习。它是短且有限的，因为它受到 Transformer 有限上下文窗口长度的限制。

长期记忆作为Agents在查询时可以处理的外部向量存储，可通过快速检索进行访问。

例子：

短期记忆：一个在线客服AI，在对话中记住用户的问题和偏好，以提供即时的个性化服务。

长期记忆：一个科研AI Agent，存储先前研究的数据和结果，在新项目中利用这些信息加速发现过程

行动（Action）：最后Agent根据规划的结果执行行动。这些行动可能是物理的，如机器人的移动，也可能是虚拟的，如软件系统的数据处理。

由于AI还没有成为具身智能的机器人，所以一般指的是工具使用（Tools Use），Agent利用外部资源或工具来增强其感知、决策和行动能力。这些工具可以是API、软件库、硬件设备或其他服务。

例子：一个数据分析AI Agent，使用外部API获取实时股市数据，或调用大模型API进行预测分析。

正如人类通过感知来理解世界，在一个理想的AI Agent架构中，Agent与环境的交互是双向的、动态的，并且是连续的,就像人与真实世界的互动一样，只是通过一系列传感器、数据输入或其他方式获得信息。最终AI Agent利用这些感知数据，以支持复杂的Planning、决策和行动。

为什么我们不用一个单独强大的AI，而要用到智能体？

AI智能体和AI聊天机器人区别

我们告诉 AI 写代码并在第一次尝试时运行它。如果你使用 GPT-3.5 0 prompt，它的正确率是 48%。

GPT-4 做得更好，正确率达到了 67.7%，但如果你围绕 GPT-3.5 使用一个 Agent 工作流程，实际上它的表现甚至比 GPT-4 还要好。如果你将这种类型的工作流程应用于 GPT-4，它也表现得非常好。你会注意到，GPT-3.5 与一个 Agent 工作流程相结合实际上超过了 GPT-4 的表现。

GPT-4工作得很好，但今天的使用场景仍然有限。而围绕Agent 搭建工作流程，可能比一个单独的模型带给我们更多惊喜。

特点一，能够执行复杂任务。

AI聊天机器人一次只能回答某个具体的问题，AI智能体还可以完成一系列更加复杂的任务。比如作为客服，包括分析客户投诉邮件，访问数据库，查看投诉是否合法，并且根据公司政策进行处理等等。AI智能体比AI聊天机器人的显著提升点在于它能够在AI大模型的基础上进行定制化的开发。

特点二，在无无监督的情况下自主执行任务。

一个玩笑的说法是，聊天机器人会冷暴力我们。我们必须得不断的发出指令，机器人才可以持续的回答问题。而AI智能体可以在很少甚至是没有人类指导和监督的情况下，自动执行多步骤和复杂的任务。比如今年夏天软件服务公司salesforce推出了一款名字叫做agent force的AI智能体。他们表示这款产品不仅可以对业务线索进行资格预审，还可以代表销售人员联系潜在客户并且安排会议。

特点三，能够使用工具。

AI智能体能在动态环境中灵活调整策略，并且独立地做出决策，这使得他们更像是一个全能的个人助理。

AI智能体具备规划能力，能够使用网络搜索、编程等等工具达成目的。比如说在AI智能体研究某个主题并且要编写一份报告的过程当中，如果出现了因为技术错误无法访问特定网络搜索应用的突发情况，AI智能体是可以灵活的转去其他的搜索工具获取信息并且完成任务的。

Agent 有哪些类型

吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式：

复盘 Reflection：让 Agent 审视和修正自己生成的输出；

我们并不能总是可靠地让AI工作，比起我们自己一行行的对比查询验证，你只需要写一个审查的 Agent ，就会很快获得生产力的提升。

更进一步，你可以有两个 Agent ，其中一个是代码 Agent ，另一个是批评 Agent 。这些可以是相同大模型，但也不同的方式进行提示。我们对一个说，你是专家级的代码撰写者。对另一个说，你是专家级的代码审查者，审查这段代码。

工具调用 Tool Use：LLM 生成代码、调用 API 等进行实际操作；

在多模态模型出现之前，大模型普遍只能处理文字，并不能直接处理图像，所以唯一的选择是生成一个可以操纵图像的函数调用。很有趣的是，很多在使用方面的工作似乎都起源于视觉领域，因为在 GPT-4 等出现之前， LLM 对图像是盲目的，这就是使用工具，扩展了 LLM 可以做的事情。

任务规划 Planning：让 Agent 分解复杂任务并按计划执行；

这是一个从 HuggingGPT 论文中改编的例子，你说，请生成一张图片，图片中的女孩在读书，而且与图像example.jpg中的男孩姿势相同，请用语音描述新图像。所以给出这样一个例子，今天有 AI Agent ，你可以决定首先需要做的是确定男孩的姿势。然后，找到正确的模型，可能在 HuggingFace 上提取姿势。接下来需要找到姿势图像模型来合成一张女孩的图片，遵循指令。然后使用图像检测，最后使用文本到语音。

我们通过让AI实施一些行之有效的SOP来完成工作，等待一段时间，或许会有新的东西。

工作流 Multiagent Collaboration：多个 Agent 扮演不同角色合作完成任务；

ChatDev 是一个多 Agent 系统的示例，你可以提示一个 LLM 有时表现得像软件工程公司的 CEO，有时像设计师，有时像产品经理，有时像测试人员。

通过提示 LLM 告诉它现在你是 CEO，现在你是软件工程师，它们合作，进行扩展的对话，以至于如果你告诉它，请开发一个游戏，开发一个多人游戏，它们实际上会花费几分钟编写代码，测试它，迭代它，并最终生成一个出人意料的复杂程序。

Agent 之间的合作能够带来更加丰富和多样的输入，而且因为它能够模拟出一个更加接近真实工作环境的场景，其中不同角色和专业知识的人员为了共同的目标而努力。这种方式的强大之处在于它能够让 LLM 不仅仅是执行单一任务的工具，而是成为一个能够处理复杂问题和工作流程的协作系统。

这种方法的潜在价值巨大，因为它为自动化和提升工作流程的效率提供了新的可能性。例如，通过模拟一个软件开发团队的不同角色，一个企业可以自动化某些开发任务，从而加快项目的进度并减少错误。同样，这种多 Agent 合作方式也可以应用于其他领域，如内容创作、教育和培训、以及策略规划等，进一步拓宽 LLM 在各个行业的应用范围。

通过 Agent Reflection、规划与多 Agent 合作等设计模式，我们不仅能够提升 LLM 的性能，还能够拓展它们的应用领域，使它们成为更加强大和灵活的工具。随着这些技术的不断发展和完善，我们期待着未来 AI Agent 能够在更多的场景中发挥关键作用，为人们带来更加智能和高效的解决方案。

那么现阶段的AI智能体还有哪些尚未解决的问题呢？

问题一，可靠性不足。

目前的AI智能体能够完成一些任务，但是并不可靠，正确率仍然远低于人类。比如说AI智能体可以生成代码，但是他们却并不知道该如何测试他们正在编写的代码，以及产生幻觉或者是分心。

与此同时，许多用户也并没有办法完全信任AI智能体，让AI智能体搜集资料是可行的，但让wan quan1负责撰写稿件是另外一回事。

问题二，跨平台和多模态能力有待完善。

我们缺乏一个跨平台的身份认证。

李开复在潜望的采访提到，智能助手应该是跨平台的，它可以和任何平台、任何地方的智能助手或智能体连接；

但目前国内大部分应用并没有提供API接口，提供了访问功能也有限，导致AI智能体无法接入，获取各种类型的信息，完成跨平台服务。甚至很多只有APP端没有网页端，这导致大部分生成式AI产品，只能在自己的网站或者是应用上来提供服务。

比如说你在ChatGPT的网站上聊天，让它生成旅行的建议，ChatGPT就会给你规划路线，建议游玩的景点，但是不能帮你预定门票和酒店。想要让AI像一个个人助理一样，就需要AI接入票务网站、酒店还有机票官网等等不同的平台。

另外还有一些系统，尽管说提供了接口，但是由于标准不够统一，可能会花费大量的时间和精力去做适配。

AI智能体在跨系统的过程当中，会遇到各种各样的难题，这也是为什么google们的AI智能体在尽可能的图片识别能力，通过屏幕的截图来访问不同的软件和网站。但是当下AI识别图片信息的成本要远远高于文字。以OpenAI为例，处理同样信息量的文字和图片，图片的成本是文字的几十倍甚至是上百倍。如果AI需要实时监控电脑屏幕的变化，那么消耗的成本还会进一步的上升。

接着就是，一个时时监控你屏幕的AI智能体，你一定不放心它的隐私与安全问题。不论是智能助手还是智能体，互相之间的连接与通信应该是安全的，最好是端到端加密的。

小记

AI智能体目前来说远远达不到完美的状态，更像是实现AGI之前的过渡方案。

回顾过去一年时间，各家大模型厂商也都推出来了自己的智能体平台，但各个智能体平台，几乎都是半成品的水平，并不能完全的替代掉你的部分工作。

虽然经过一系列的投流与各种比赛活动，吸引了一些智能体创作者聚集，但烟花散去，可能并没有多少人会留下来。

虽然一些平台提出各种流量激励，以及B端或者C端的商业化，实际上更偏噱头，反而会伤害平台环境。

核心还是产品好不好用，总不能一直吃扣子和豆包尾气吧？

目前有一个好玩的项目AgentNetworkProtocol (ANP)，致力于成为智能体网络时代的HTTP：github.com

他们认为智能助手或智能体之间的之间的协作效率应该是高效；

重要的不是智能体操作UI的方案，而是底层直接协议通信，这才是AI擅长的方式，并且智能体之间应该是自动协商的，类似web3，最终达成一个自组织自协商的智能体网络。

智能体仍然值得期待。

如果在你的电脑上现在有一个成熟的AI智能体，你希望帮你做些什么事情呢？

资料管理

以下内容对本文有帮助并致谢

4. 理论篇: AI Agents理论知识

吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式

AI Travel Agent: AI旅行助手

https://mp.weixin.qq.com/s/gaHQgEzJIGm9tYkG8RydBw

CS 194/294-196 (LLM Agents) - Lecture 2, Shunyu Yao

https://youtu.be/RM6ZArd2nVc

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

https://mp.weixin.qq.com/s/YSoGQ9RFeoe_inLxlg2ndA

实用至上：智能体/Agent 是什么

https://mp.weixin.qq.com/s/xQPmiEfFOOp8R5zgTcYHDA

Voyager：「我的世界」中的Agent

科技巨头纷纷入局 AI 代理，为何它比 AI 聊天机器人「更聪明」？

https://www.xiaoyuzhoufm.com/episode/673c757a8d1233fb0d6751b9

🔗点击左下角阅读原文进入AIGC社区，一起探索AI生产力~

-- 日拱一卒功不唐捐 --

——END——

AI智能体下一步，模拟人机交互，所有人的工作流将被改变

Ne0inhk

AI智能体下一步，模拟人机交互，所有人的工作流将被改变

Agent 的起源

Agent的决策流程：PPMA模型

AI智能体和AI聊天机器人区别

Agent 有哪些类型

那么现阶段的AI智能体还有哪些尚未解决的问题呢？

小记

资料管理

Read more

黄仁勋公开发文：传统软件开发模式终结，参与AI不必非得拥有计算机博士学位

转型AI工程师实战指南

个人开发者“接私活”降维打击：我是如何用 Nuct + Cursor 快速交付项目的 🚀

🚀 Expo React Native 微信支付集成全攻略