OpenAI 发布 GPT-4o:多模态实时交互与性能突破
发布会概述
在春季新品发布会上,OpenAI 正式推出了最新一代旗舰大模型 GPT-4o。与以往仅支持文本交互的模型不同,GPT-4o 实现了语音、文本和视觉的多模态融合,具备超低时延的语音助手和翻译能力,并能感知人类情绪。此次更新标志着人机交互方式的一次重大演进。
核心架构与技术亮点
1. 端到端多模态模型
GPT-4o("o"代表"omni")是一个端到端训练的新模型。它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。这意味着所有输入和输出都由同一个神经网络处理,而非像过去那样通过多个独立模块拼接。
这种架构设计使得模型能够更自然地理解上下文。例如,在语音对话中,模型可以直接将音频映射到音频作为一级模态,并将视频实时传输到 Transformer 架构中。这需要对 token 化和架构进行新的研究,但本质上是一个数据和系统优化问题。
2. 性能与速度提升
GPT-4o 在速度和成本上相比前代产品有显著提升:
- 价格:API 定价是 GPT-4-turbo 的一半。
- 速度:响应速度是 GPT-4-turbo 的两倍。
- 速率限制:高 5 倍。
在语音交互方面,GPT-4o 展现了惊人的低延迟特性。在与用户的实时对话中,平均响应时间为 320 毫秒,最短响应时间仅为 232 毫秒。相比之下,之前的 ChatGPT 语音对话体验平均延迟约为 2.8 秒(GPT-3.5)或 5.4 秒(GPT-4)。这种接近人类对话的自然节奏,极大地提升了用户体验。
3. 情感感知与语音风格
GPT-4o 不仅能听、能看、能说,还能理解人类的情绪。它能够根据指令提供更丰富的语音语调或不同风格,甚至能识别用户呼吸声等细微生理信号并给予反馈。这使得语音助手不再冷冰冰,大幅提升了大模型的实用性。
基准测试表现
据 OpenAI 技术报告,GPT-4o 在多项评测指标上均超越了 GPT-4 Turbo、GPT-4 (2023 年 3 月版) 以及竞品如 Claude 3 Opus、Gemini Pro 1.5、Llama 3 400b 和 Gemini Ultra 1.0。
具体表现包括:
- MMLU(语言):创下 88.7% 的新高分(0-shot COT)。
- GPQA(知识):表现优异。
- MATH(数学):逻辑推理能力增强。
- HumanEval(编程):代码生成与理解能力提升。
在所有语言的基准测试中,GPT-4o 均比 GPT-4 更强。在视觉理解评估上,GPT-4o 在视觉感知基准上也实现了最先进的性能。
多语言与 Tokenization 优化
GPT-4o 拥有超高的语言天赋,支持 50 种语言,并显著提高了非英语语言的性能。模型采用了全新的 tokenizer,大幅提高了对各种语言的编码效率。例如,古吉拉特语的 token 数减少了 4.4 倍,其中包括英语、法语、德语、葡萄牙语、西班牙语等 20 种语言,中文也包含在内。
在现场演示中,GPT-4o 曾充当实时翻译,实现意大利语和英语的即听即翻,展示了其在跨语言交流中的强大能力。
视觉与内容生成能力
除了强大的文生图能力和海报设计能力外,GPT-4o 还具备以下视觉相关功能:
- 3D 重建:能够从 6 个生成的图像进行 3D 重建。
- 漫画分镜:只需输入几段文字,就能得到一组连续的漫画分镜。
- 实时图表分析:打开手机摄像头,GPT-4o 的视频模式可以实时看着图表的内容和数据变化,快速回答问题。
- 面部情绪识别:正确理解人类的面部情绪,判断开心或不开心。
安全与风险评估
根据 OpenAI 的安全评估,GPT-4o 在网络安全等风险维度上都控制在中等水平以下。但其语音模态带来一些新的安全挑战,需要持续迭代改进。目前向公众开放的是文本和图像输入,以及文本输出。语音输出将限定为预设的声音,以防止滥用。


