跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

GPT-4o 发布:原生多模态模型与免费开放策略

GPT-4o 是 OpenAI 发布的新一代原生多模态模型,命名为“Omni”。相比前代,其响应速度大幅提升,最低可达 232 毫秒,支持文本、音频、图像的任意组合输入输出,并实现了无延迟实时对话。新版本推出了桌面客户端,可无缝融入工作流。API 价格降至 GPT-4 Turbo 的一半,且普通用户无需注册即可免费使用基础功能。发布会演示展示了模型在环境音识别、即时打断、同声传译及情感交互方面的进步,但也引发了关于数据隐私及迭代速度的讨论。

奶糖兔发布于 2025/2/7更新于 2026/6/1725 浏览
GPT-4o 发布:原生多模态模型与免费开放策略

GPT-4o 发布概览

距离 GPT-4 的发布已经过去了一年,当地时间 5 月 13 日上午 10 点,OpenAI 春季发布会正式举行。这次发布的既不是传了很久的搜索引擎,也不是 GPT-5,而是 GPT-4 的迭代版本——GPT-4o。在未来几周内,用户将会陆续自动更新到 GPT-4o。

GPT-4o 作为新一代旗舰模型,把 AI 工具的使用门槛降到了更低的程度。不仅比上一代速度快两倍,能实现无延迟实时对话,而且用户不用注册,功能全部免费。此外,ChatGPT 现在有桌面版本了,轻量化的使用体验可以无缝融入你的任何工作流程。据 OpenAI 的 CTO 米拉·穆拉蒂(Mira Murati)表示,这也是他们第一次在易用性上做出改进。

'O'是包罗万象的 O

发布会刚开始,米拉·穆拉蒂为这次新发布定了调,说 OpenAI 的目标是进一步减小人们使用 AI 的障碍,让所有人都能在工作、学习、创造中用上 AI 工具。为了这个目的,OpenAI 做了三件事:发布更强大的模型 GPT-4o,更新用户界面提高使用体验,然后一口气免费开放给用户。穆拉蒂补充道,付费用户享有五倍的使用容量限制。

GPT-4o 发布会现场

米拉·穆拉蒂主持了整场发布会,萨姆·奥尔特曼没有露面。据 OpenAI 表示,GPT-4o 是一个'原生多模态'模型,它的命名来源于'omni',即包罗万象之意。比起此前要么是图文模式要么是语音模式的 GPT-4,它更擅长打组合拳,可以接受文字、音频、图像的任意组合输入,然后无缝衔接图文音频的多种形式输出。

升级后的GPT-4o 回答速度更快了。据 OpenAI 表示,GPT-4 想要实现和人的对话需要通过三步来实现:先把语音转换为文字,再生成回复文本,最后再转成语音。根据用户选择模型的不同,这个过程的平均延迟高达 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。而且在语音转文字再转语音的过程中,很多信息损失了,GPT 无法获得说话人的音调,也无法收取背景音,如果有多个人一起说话更是灾难性的场景。

'我们跨文本、视觉和音频端到端地训练了一个新模型,'OpenAI 写道,'这意味着所有输入和输出都由同一神经网络处理。'现在的 GPT-4o可以在最短 232 毫秒内响应对话,平均响应时间 320 毫秒,和人类的反应速度几乎一样。

GPT-4o 还带来了更好用的界面。再也不用在网页间互相切换了,新的桌面版 GPT 可以融入任何工作流,随时和用户用图像文字语音进行交流。

桌面版 GPT 小窗口示例

右上角是桌面版 GPT 的小窗口,可以贴代码让它 debug,可以截图让它读表格,也可以随时跟它对话。此外,萨姆·奥尔特曼在 X 上补充道,模型升级不止在 GPT 上,开发者也可以在 API 里同步使用 GPT-4o,价格是 GPT-4 Turbo 的一半,速度是 GPT-4 Turbo 的两倍。GPT-4o 还在 50 多种除英文外的语言能力上得到了加强。

连呼吸都能辨别

发布会的最后一个环节是实机演示。OpenAI 麾下的大牛研究员 Marc Chen 和 Barret Zoph 一起展示了新模型的强大之处。

在第一段对话里,Chen 对 GPT 说,自己有点紧张,然后开始急促地呼吸。GPT 识别到了他呼吸的声音,说,别紧张,你喘得像个吸尘器,深呼吸,再吐气。接着 GPT 开始指导 Chen 怎么深吸慢呼平复心情。

呼吸识别演示

这个 demo 设置得很妙,它展示出了两个重要的新能力:听环境音和即时反馈。GPT 不再需要一轮一轮地进行对话,它可以同时听人喘气和进行呼吸指导,输入和输出在同时发生。

第二个 demo 里,Chen 让 GPT 给 Zoph 讲个睡前故事哄他入睡,Chen 反复打断 GPT 的讲述,问它能不能讲得更刺激点,最后,GPT 跟迪士尼公主似的把故事用歌唱了出来。有时候 GPT 给人感觉话太多了,在新版本里,你要是不想听可以立刻打断或者提出意见,就像在真实生活里的交流一样。

后面的几个 demo 里,GPT 教 Zoph 做了数学题,给大家解释了代码,读了图表,给 Zoph 看了面相,最后还当了 Chen 和穆拉蒂之间的同声传译。

面相分析演示

我个人的体会是,这个版本的 GPT 比以前更像人了,对话中会开更多的玩笑,语气词也多了不少。但还是有很多人对这次发布会不满意。有网友觉得 OpenAI 在挤牙膏,一年多过去了仍然在 GPT-4 上裹足不前,也有人对免费提出了质疑。

'当服务免费时,用户就是产品。''(ChatGPT 免费之后)OpenAI 获得的数据量会超出想象。'

对一般用户来说,不用注册即可使用已经是个天大的惊喜,再也不用找国外手机号了。

目录

  1. GPT-4o 发布概览
  2. “O”是包罗万象的 O
  3. 连呼吸都能辨别
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于微信小程序的校园服务平台的设计与开发
  • 基于微信小程序的校园服务平台的设计与开发
  • 基于 SpringBoot+Vue 的日用品购物平台设计与实现
  • VS Code Copilot Chat 加载过慢问题解决方案
  • 基于 SpringBoot 的高校宿舍管理平台设计与实现
  • ChatWiki 微信生态企业 AI 知识库,支持多模型与零代码 Agent 搭建
  • 40 个 Python 可视化图表案例及代码实现
  • 基于STM32的智能宠物喂食系统设计与实现
  • 知网与维普 AIGC 检测算法对比:实测差异与应对策略
  • 万方AIGC检测通不过?这几款降AI工具实测有效
  • OpenEUICC Android eSIM 管理工具使用指南
  • 开源 AI 短剧生成工具 Horseplay 介绍
  • 免费开源AI工具:CoPaw与OpenFang整理
  • CoPaw 与 OpenFang 免费开源 AI 工具部署指南
  • Conda 虚拟环境与安装包路径修改:释放磁盘空间配置指南
  • 无人机视觉目标检测数据集 VisDrone 详解
  • Welford 算法:高效计算海量数据的均值与方差
  • ERNIE-4.5 模型系列解析:架构创新与多场景性能测评
  • Java 基于 YOLO 框架的视频 AI 识别算法平台,适配无人机巡检与安防场景
  • 9 款主流 AI 大模型免费 API 接口集成与使用指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online