AI Agent:大模型时代的应用交互变革
AI Agent 是大模型时代应用形态的典型代表。
为什么基于 GUI 存在局限
我们拿高频订餐 App 举例来看看这个问题。
首先,如果每天中午不自己记着 11:30 左右要点餐,那么就很可能中午吃不上饭。点餐的过程也没有愉快到哪里去。当我打开外卖 App,眼花缭乱的页面就铺陈在了我的面前。划来划去都是推荐算法推荐的一言难尽的菜式,下单时万一少选了各种红包各种豆,像错过一个亿。
如果心血来潮想要自己搜一些找好吃的,就需要先从脑海里将各个维度的信息进行一下分类,然后去填各种表单:有下拉选择的、有点击选择的,还有在文本框里填入文本、在图片框里上传图片,各从其类。
实际上,这种结构化的思维方式是反人性而迁就计算机的。从 80 年代苹果推出第一款搭载 GUI 的电脑以来,这样的交互方式一直占领着我们的生活。
问题是第一,这已经是在特定条件下最舒服最方便的交互方式了;第二,我们对它是如此的习惯,以至于已经完全忽视了它带来的不便。
为什么 AI Agent 是接班人
让我们来看一种全新的订餐过程:
小秘:'王总,午饭时间到了。您昨晚喝酒了,我今天帮您定点清淡的可以吗?'
你:'喝点粥吧。你看着定就行,我忙着呢别烦我了。'
小秘:'好的王总,那我为您定生滚鲜虾粥。'
你:'不想吃咸的,要甜口的吧。'
小秘:'好的王总,我给您定八宝粥吧。'
你并没有停下手头上的工作,只是轻轻点了点头。
小秘:'给您订好了,稍后我通知去取。'
谁不想成为这样的呢?这就是一个 Agent 的服务过程。
Agent,中文名为'智能体',由控制端(Brain)、感知端(Perception)和行动端(Action)组成,是一种能够在特定环境中自主行动、感知环境、做出决策并与其他 Agent 或人类进行交互的智能体。
Agent 这个机制并不是一个很新的构想,它之所以一直不温不火,是因为缺乏一颗足够聪明的'大脑'。
基于意图目标的交互
多模态实时大模型的问世,使得 Agent 可以拥有图像、声音、文字、情绪的融合感知能力。那么既然有了更好的选择,打破传统 GUI 的交互方式,一定会成为必然。甚至最大的移动设备入口——手机的形态会不会发生变化,也值得思考。
意图驱动 + 超级省心的自动化
现如今,当我们要完成一个任务时,一般会有两个不同的路径:
- 在脑海里将我的意图目标进行分析和拆解,产生一个一个清晰的小问题或者子任务,再逐个去找答案和完成,最后做进一步的整合。
- 找到类似的'攻略'、'教程',集中做功课,然后梳理出自己需要的知识点。
由于 Agent 中同样有一颗'大脑',所以它可以分担我们大脑的相当一部分工作,代替我们去做意图目标拆解、子任务排布以及目标信息整合的过程。
有些时候,我们无法清晰地描述我们想要什么,因为 Agent 具备模糊意图理解能力,我们就可以连比划带哼哼地进行表达;甚至有些时候,我们不知道自己应该想要什么,具备该能力的 Agent,就能够帮助我们挖掘模糊的意图,直至其清晰化。
Agent 既能理解'谁在和我交互',也能理解'他们真正想要做什么'。
AI Agent 的崛起不仅仅是技术上的突破,更是对软件开发理念的一次深刻变革。
在传统的软件开发中,程序员需要预先定义所有的逻辑和规则,然后进行代码实现。而 AI Agent 的出现,要求我们对软件进行充分地'放权':你只需用自然语言给它一个面向目标的指令,它就由一颗大脑(LLM)来进行自主支配运行,并在运行时自动学习、适应和调优。
这就带来了一个惊人的变化:AI Agent 的开发不再是只有程序员能够做的事情!产品经理和程序员的界限将变得模糊。
未来展望
应用形态发展为 AI Agent,是大模型能力到了一定阶段的必然。
谷歌 I/O 大会上,谷歌提出了'重新构想搜索,任何方式、任何地方'的愿景。在这里我想借用下谷歌的搜索愿景来描述未来的应用趋势:'重新构想应用交互,任何方式、任何地方都可以进行的基于意图目标的交互'。
这意味着软件将从'工具'转变为'助手'。用户不再需要学习复杂的操作手册,只需表达需求,系统即可自主规划路径并执行结果。
附:一些优秀的 Agent 项目
AutoGPT
可以根据你设置的目标,将实现这个目标的任务进行拆解,再采用搜索、浏览网站、执行脚本等方式一条条去执行任务,帮你完成目标。


