OpenAI 发布 GPT-4o:多模态大模型实现情感识别与实时交互
如果说黄仁勋(Jensen Huang)是科技界的泰勒·斯威夫特,以亲和力和号召力获得了一众拥趸,那萨姆·奥尔特曼(Sam Altman)就有些像 AI 届的金·卡戴珊,永远擅长制造话题和抢风头。最近两周,关于 OpenAI 将要推出搜索引擎的传言沸沸扬扬,所有的聚光灯都投射在奥尔特曼身上。正当大家期待值快达到顶峰时,这位硅谷的当红炸子鸡上周五突然跳出来,宣布 OpenAI 的春季产品发布会将在 5 月 10 日进行,正好是谷歌 I/O 开发者大会的前一天。他还在推特上承诺将带来一些具有魔力的更新,这样一套营销组合拳不仅为 OpenAI 造足了势头,也使得谷歌的预热声瞬间哑火。
那么在周一的发布会上,OpenAI 究竟推出了什么魔力产品?
GPT-4o,OpenAI 首款能分析情绪的多模态大型语言模型
美西时间上午 10 点整,OpenAI 首席技术官米拉·穆拉提(Mira Murati)进入了直播室,向观众介绍了这次春季大更新,其中包括桌面版本的 ChatGPT,更新的用户界面,以及最重要的,新的旗舰模型—GPT-4o。
GPT-4o 中的 o 代表 Omnimodal,顾名思义,这是一个基于 GPT-4 之上的多模态大模型。更值得关注的是,GPT-4o 能够与用户进行多样化的语气交互,并精准捕捉到用户的情绪变化,这是一大进步。与之前版本仅通过语音转文字(voice-to-text)来识别语音输入不同,GPT-4o 能够实时处理语音输入并响应用户的情感和语气。
核心功能演示
在直播过程中,两位 OpenAI 的员工向大家展示了 GPT-4o 的更新细节:
- 感知用户情绪:前沿研究部门主管陈信翰(Mark Chen)让 ChatGPT-4o 聆听他的呼吸,聊天机器人侦测到他急促的呼吸,并幽默地建议他不要像吸尘器那样呼吸,要放慢速度。随后 Mark 深呼吸一次,GPT-4o 则表示这才是正确的呼吸方式。
- 具备不同情绪的声音:陈信翰示范了 ChatGPT-4o 如何用不同的声音朗读 AI 生成的故事,包括超级戏剧化的朗诵、机器人音调,甚至唱歌。
- 实时视觉功能:研究员巴雷特·佐夫(Barret Zoph)演示了如何让 ChatGPT-4o 通过手机摄像头实时解决数学问题,仿佛一位真实的数学老师在旁边指导每一个解题步骤。此外,ChatGPT-4o 还能通过前置摄像头观察用户的面部表情,分析其情绪。
- 更即时的语音交互:ChatGPT-4o 的响应时间得到缩短,与用户的交互更加即时。穆拉提和陈信翰利用新的聊天机器人展示了跨语言的实时翻译功能,能够在英语和意大利语之间无缝转换。
由此可见,这次更新的重点在于使聊天机器人不再那么机械冷漠,而是更加接近真实人类,能够理解并表达情绪。
GPT-4o 的技术架构创新
OpenAI 目前还没有公布更多的技术细节,但根据其在官网的概述,在 GPT-4o 之前,使用 ChatGPT 的语音模式时,需要通过三个相互独立的模型来进行接力处理:
- 第一个模型将音频转换为文本;
- 接着由 GPT-3.5 或 GPT-4 处理文本输入并输出文本;
- 最后一个模型再将文本转换回音频。
这种处理方式常导致信息的大量丢失,例如无法捕捉到语调、识别多个说话者或背景噪音,也无法生成笑声、歌唱或其他情感表达。GPT-4o 的创新之处在于,它是 OpenAI 的首个整合文本、视觉和音频多模态输入与输出的模型。通过端到端地训练一个统一的新模型,实现了所有输入和输出的处理都由同一个神经网络完成。
除了多模态输入输出,GPT-4o 还具备更快的响应速度:能够在短至 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,接近人类在对话中的响应时间。这一性能提升对于实时交互场景至关重要,例如电话客服、无障碍辅助工具以及实时翻译设备。
GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 性能相当,在非英语文本上的性能显著提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。为了给大家一个更直观的感受,我们对比了 GPT-4o 和 GPT-4 Turbo 的性能数据:
| 特性 | GPT-4o | GPT-4 Turbo |
|---|---|---|
| 响应延迟 | ~232ms (音频) | >2000ms |
| 多模态支持 | 原生支持 |


