引言
如果把大模型接入到终端设备,会怎么样?
智能交互回顾
历史观点指出,大模型已遍布多个应用场景,包括智能对话和终端设备(手机、嵌入式、脑机接口等)。结合不断壮大的多模态功能(图文理解、文生图、视频理解、多模态交互等),新一代交互方式即将来临。
上一代交互以文本框为主,部分产品虽然支持语音输入,但背后依然是语音转文本,丢失了语速、语气、音色、音量、环境音等信息,导致 NLU(自然语言理解)出现偏差。智能音箱优秀代表如小米小爱、天猫精灵、百度度秘,用户刚开始用有新鲜感,但时间长了会发现语言理解能力堪忧,用户体验下降。
交互范式变革
如今,大模型时代,信息传播方式开始变化,不再局限于文本框输入,还能实现真正的语音交互、输入图片视频及传感器信号,对话载体也蔓延到各类终端设备。
语音模态
语言、语音融合,一步到位,不再拆分 ASR/NLU/TTS。
2024 年 10 月 26 日,智谱迈出重要一步,推出自主智能体 AutoGLM 及情感语音模型 GLM-4-Voice,进一步逼近 OpenAI 的技术前沿。GLM-4-Voice 情感语音模型不仅能模拟真实情感表达,还能切换多种方言和语气,实现与真人般的对话体验。该模型已上线清言 app,并对外开源。
可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。同时,对话方式不再你一言我一语,机械式一问一答,而是真正的全双工模式。
2024 年 8 月 5 日,上海交大开发出新模型 LSLM(Listening-while-Speaking Language Model),实现了真正的全双工对话。LSLM 可以同时说话和听话。AI 一边嘴巴不停,一边耳朵也没闲着。两个关键技术:基于 token 的解码器 TTS 负责生成语音;流式自监督学习编码器实时处理音频输入。
2024 年 8 月 8 日,贾扬清的 Lepton AI 直接把 LLM 和 TTS 合二为一。传统系统里,文本和音频排队等处理;这里文本和语音并行处理,速度极快,首次音频时间(TTFA)直接缩水到十分之一,自然无比顺滑。除了减少延迟,Lepton AI 还引入简化和优化内容处理的高级机制,根据对话内容动态调整音频片段。这样,对话不仅连贯,还超级自然,停顿、中断不存在,用户体验直接拉满。
多模态交互
除了语音模态,输入形式还可以扩展到图片、视频、传感器信号、动作等模态。各种多模态大模型还在快速进化,层出不穷。
多模态交互是大势所趋,毕竟人类沟通时,语言并非唯一渠道,有时候只需一个表情、一个动作就完成了信息传递。神经系统接收和处理外界信息以作出反应、进行通信并确保身体的健康与安全。环境信息传递到感觉器官:眼睛、耳朵、鼻子、舌头和皮肤。细胞和组织接收原始刺激,并将其转化为神经系统可以使用的信号。神经将信号传递到大脑,大脑将其解释为影像(视觉)、声音(听觉)、气味(嗅觉)、味道(味觉)和触感(触觉)。其中,视觉信息占比高达 90% 以上。
载体终端化
电脑、手机不是唯一,未来的交互设备无处不在,电视、玩具、音箱、耳机、手环、项链、别针等。这些设备确实实际存在,有形,未来还会往无形发展,如脑机接口。
2024 年 11 月 1 日,B 站超级科学晚会上,西工大脑机接口谢松云教授展示如何通过意念控制无人机起降、机械臂操作。带脑电帽操控 3 台无人机表演,脑电帽提取脑电波特征,翻译成行为指令。脑电波操控机械臂,抓豆角。
嵌入式设备交互
无形的意念交互距离落地还有一定距离,这里先聊聊嵌入式设备这种有形交互。将大模型植入小型设备/家具/玩具上,我们的生活会变成什么样?
玩具交互
2024 年 4 月 9 日,FoloToy 用 AI 改造传统行业(玩具),原先仅能播放音乐、讲故事的早教玩具,有了更多玩法,可实现多语种、多角色扮演对话,并且联网后还能提供丰富的天文地理知识。
FoloToy 团队接入大模型后,同火火兔玩具厂商推出一款儿童或老人陪伴玩具——Fofo。
2024 年 4 月 27 日,Living AI 公司最新研发的口袋宠物机器人 Aibi,蓝牙耳机盒的大小,可以随时随地带着它去任何地方,重新定义智能 AI 口袋桌宠,时刻陪伴着你。
2024 年 9 月 3 日,跃然创新把大模型做到毛绒玩具上,AI 界泡泡玛特出来了。找不到商业化落地场景 Agent+一个简单的 Wifi 音箱+儿童喜爱的毛绒玩具,这三个看起来都平平无奇的元素,加在一起挂在小熊玩偶上的彩色泡泡名叫 BubblePal,从硬件形态上看像一个可爱版的 AI Friend。
小朋友可以自由选择泡泡背后的角色:爱因斯坦、艾莎公主还是孙悟空等等耳熟能详的动画角色,捏住泡泡就能与其对话。家长在后端通过手机 APP 能够获取对话的全部内容,以此来了解 3-6 岁小朋友的成长和心理健康动态。
这样一个简单的泡泡,几乎巧妙地避开了如今围绕着 AI 的所有难题:基座大模型能力不够用?容易出现幻觉?Agent 不够像?用户没有付费意愿?BubblePal 上线一个月,用户活跃度非常好,用户平均每天使用时长超过了 30 分钟。上线当周,后台收到了大量订单咨询,家长反馈特别强烈。没想过能卖得这么好,日 tokens 调用量正在成倍地往上涨,上线两周,单日 tokens 消耗达到了 2 亿,现在每日 tokens 消耗已经超过了 4 亿。


