OpenAI 发布 GPT-4o：多模态实时交互与性能突破

发布会概述

在春季新品发布会上，OpenAI 正式推出了最新一代旗舰大模型 GPT-4o。与以往仅支持文本交互的模型不同，GPT-4o 实现了语音、文本和视觉的多模态融合，具备超低时延的语音助手和翻译能力，并能感知人类情绪。此次更新标志着人机交互方式的一次重大演进。

核心架构与技术亮点

1. 端到端多模态模型

GPT-4o（"o"代表"omni"）是一个端到端训练的新模型。它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。这意味着所有输入和输出都由同一个神经网络处理，而非像过去那样通过多个独立模块拼接。

这种架构设计使得模型能够更自然地理解上下文。例如，在语音对话中，模型可以直接将音频映射到音频作为一级模态，并将视频实时传输到 Transformer 架构中。这需要对 token 化和架构进行新的研究，但本质上是一个数据和系统优化问题。

2. 性能与速度提升

GPT-4o 在速度和成本上相比前代产品有显著提升：

价格：API 定价是 GPT-4-turbo 的一半。
速度：响应速度是 GPT-4-turbo 的两倍。
速率限制：高 5 倍。

在语音交互方面，GPT-4o 展现了惊人的低延迟特性。在与用户的实时对话中，平均响应时间为 320 毫秒，最短响应时间仅为 232 毫秒。相比之下，之前的 ChatGPT 语音对话体验平均延迟约为 2.8 秒（GPT-3.5）或 5.4 秒（GPT-4）。这种接近人类对话的自然节奏，极大地提升了用户体验。

3. 情感感知与语音风格

GPT-4o 不仅能听、能看、能说，还能理解人类的情绪。它能够根据指令提供更丰富的语音语调或不同风格，甚至能识别用户呼吸声等细微生理信号并给予反馈。这使得语音助手不再冷冰冰，大幅提升了大模型的实用性。

基准测试表现

据 OpenAI 技术报告，GPT-4o 在多项评测指标上均超越了 GPT-4 Turbo、GPT-4 (2023 年 3 月版) 以及竞品如 Claude 3 Opus、Gemini Pro 1.5、Llama 3 400b 和 Gemini Ultra 1.0。

具体表现包括：

MMLU（语言）：创下 88.7% 的新高分（0-shot COT）。
GPQA（知识）：表现优异。
MATH（数学）：逻辑推理能力增强。
HumanEval（编程）：代码生成与理解能力提升。

在所有语言的基准测试中，GPT-4o 均比 GPT-4 更强。在视觉理解评估上，GPT-4o 在视觉感知基准上也实现了最先进的性能。

多语言与 Tokenization 优化

GPT-4o 拥有超高的语言天赋，支持 50 种语言，并显著提高了非英语语言的性能。模型采用了全新的 tokenizer，大幅提高了对各种语言的编码效率。例如，古吉拉特语的 token 数减少了 4.4 倍，其中包括英语、法语、德语、葡萄牙语、西班牙语等 20 种语言，中文也包含在内。

在现场演示中，GPT-4o 曾充当实时翻译，实现意大利语和英语的即听即翻，展示了其在跨语言交流中的强大能力。

视觉与内容生成能力

除了强大的文生图能力和海报设计能力外，GPT-4o 还具备以下视觉相关功能：

3D 重建：能够从 6 个生成的图像进行 3D 重建。
漫画分镜：只需输入几段文字，就能得到一组连续的漫画分镜。
实时图表分析：打开手机摄像头，GPT-4o 的视频模式可以实时看着图表的内容和数据变化，快速回答问题。
面部情绪识别：正确理解人类的面部情绪，判断开心或不开心。

安全与风险评估

根据 OpenAI 的安全评估，GPT-4o 在网络安全等风险维度上都控制在中等水平以下。但其语音模态带来一些新的安全挑战，需要持续迭代改进。目前向公众开放的是文本和图像输入，以及文本输出。语音输出将限定为预设的声音，以防止滥用。

OpenAI 发布 GPT-4o：多模态实时交互与性能突破