谷歌 I/O 大会发布 Gemini 1.5 Pro 及视频模型 Veo,上下文窗口达 200 万
在 OpenAI 推出 GPT-4o 引发广泛关注后,Google DeepMind 首席执行官哈萨比斯在 Google I/O 大会上正式发布了多项 AI 新成果,展示了谷歌在人工智能领域的最新进展。本次发布会重点介绍了多模态助手 Project Astra、长上下文模型 Gemini 1.5 Pro、视频生成模型 Veo 以及硬件层面的 TPU Trillium。
Project Astra:具备记忆能力的 AI 助手
Project Astra 是基于 Gemini 系列模型打造的新一代智能助手。其核心目标是让 AI 真正融入日常生活,提供实时的视觉和语言交互能力。
实时交互与视觉理解
Project Astra 能够通过摄像头实时观察周围环境,并与用户进行流畅的对话。演示中,该助手能够识别物体、阅读代码,甚至协助完成找眼镜等日常任务。它具备初步的场景记忆能力,能够在对话过程中记住之前看到的信息,从而实现更连贯的交互体验。
延迟与打断机制
尽管展示了强大的多模态能力,但现场演示也暴露出一些技术挑战。例如,Project Astra 的响应延迟相比 GPT-4o 仍有一定差距,且目前尚未完全展示支持打断助手说话的功能。这将是后续迭代优化的重点方向。
背后的技术支撑
Project Astra 的能力依赖于 Gemini 系列模型的持续升级。特别是 Gemini 1.5 Pro 的上下文窗口扩展至 200 万 token,为处理长序列视觉和文本信息提供了基础。此外,谷歌还推出了轻量级模型 Gemini 1.5 Flash,并开源了 27B 参数的 Gemma 2 及视觉语言模型 PalGemma,以丰富生态系统的模型选择。
Gemini 1.5 Pro:200 万上下文窗口
Gemini 1.5 Pro 是本次发布会的核心亮点之一。其上下文窗口从之前的 100 万 token 直接提升至 200 万 token,这一突破使得模型能够处理更长、更复杂的输入内容。
长文档处理能力
拥有 200 万 token 的上下文窗口意味着 Gemini 1.5 Pro 可以一次性读取约 1500 页的 PDF 文档。这对于法律合同分析、长篇技术文档总结、代码库理解等场景具有革命性意义。用户无需将文档切片,即可让模型理解整体逻辑和细节。
代码与多模态理解
除了文本,Gemini 1.5 Pro 还能处理长视频和音频文件。结合 Project Astra 的演示,可以看出谷歌正在构建一个能够理解复杂多模态数据的统一模型架构。这使得开发者可以利用该模型构建更智能的代码辅助工具和数据分析应用。
生成式媒体模型:Veo、Imagen 3 与 Lyria
针对视频和图片生成领域,谷歌推出了多款对标行业领先水平的模型。
Veo:60 秒高质量视频生成
Veo 是谷歌最强的视频生成模型,旨在对标 Sora。它能够生成 1080p 分辨率的高质量视频,时长最长超过 1 分钟。Veo 强调画面的一致性,能够理解'延时拍摄'、'航拍'等专业术语,并根据提示词调整风格。目前,谷歌已与电影制作者展开合作,探索其在影视制作中的应用潜力。
Imagen 3:图像生成升级
Imagen 3 作为图片生成模型的更新版本,减少了视觉伪影,提升了生成图像的细节表现。特别是在生成文字方面,Imagen 3 的效果显著改善,能够准确地在图像中渲染指定的文本内容,如标志或标题。
Lyria:音乐生成模型
此次发布会还推出了音乐生成模型 Lyria,标志着谷歌在音频生成领域的布局。虽然具体参数未详细披露,但这表明谷歌正致力于构建全模态的生成式 AI 体系。
Gemini 全线产品集成
谷歌不仅展示了模型能力,更强调了将 Gemini 深度集成到现有产品线中的战略。
谷歌搜索:AI Overview
基于 Gemini,谷歌搜索推出了 AI Overview(AI 概述)功能。用户在搜索框输入问题后,系统会直接给出 AI 总结的答案及相关链接。对于复杂问题,AI Overview 采用多步推理技术,将问题拆解并排序回答。例如,查询餐厅推荐时,不仅能列出结果,还能根据距离、评分、价格等多维度自动分组,甚至支持制定餐饮计划并一键添加食材到购物车。此外,搜索功能还支持视频搜索,用户录制视频故障画面,AI 即可分析原因并提供建议。
Android 15:AI 内核操作系统
Android 系统现在与 Gemini 深度绑定,成为以 AI 为内核的操作系统。新功能包括 Circle to Search,用户只需圈选屏幕上的任何内容即可进行搜索。Gemini 助手层可随时调出,支持跨应用操作,如将生成的图片拖入 Gmail,或在电话中识别诈骗关键词并发出警报。官方强调,Gemini 已不再是简单的 App,而是安卓体验的基础设施。
谷歌 Photos:Ask Photos
谷歌 Photos 推出了 Ask Photos 功能,允许用户通过自然语言从海量图库中查找照片和视频。例如询问"baby 什么时候学会游泳的',系统会自动检索相关标签的图片并总结回复。该功能计划于当年夏天推出。
谷歌 Workspace:生产力工具增强
Gemini 接入到了谷歌邮箱、Docs、Calendar 等 Workspace 工具中。这使得跨应用工作流更加顺畅,例如在邮件中自动分析附件、整理收据,并在 Drive 和 Sheets 中处理数据。这种集成显著提升了企业用户的办公效率。
NotebookLM:交互式笔记
NotebookLM 进行了重大升级,支持语音对话式回答。当用户提出问题后,Gemini 模型会结合笔记内容进行多模态交互,使所有笔记变成交互式教材,极大地改变了知识管理和学习的方式。
第六代 TPU Trillium:硬件算力提升
在硬件层面,谷歌发布了第六代 TPU Trillium,计划于今年向云客户提供。Trillium 相比前代 TPU v5e 有显著提升:
- 计算性能:峰值计算性能提高 4.7 倍。
- 内存与带宽:HBM 和带宽增加 1 倍。
- 互联带宽:芯片间互联(ICI)带宽增加 1 倍。
- 能效比:能效比 TPU v5e 高出 67% 以上。
这些硬件升级将为训练更大规模的模型提供更强的算力支持,降低推理成本,推动 AI 应用的普及。
总结与展望
本次 Google I/O 大会展示了谷歌在 AI 领域的全面反击。从 Project Astra 的多模态交互,到 Gemini 1.5 Pro 的超长上下文,再到 Veo 的视频生成能力,谷歌试图在 AGI 竞赛中保持领先地位。同时,通过将 Gemini 深度集成到搜索、Android、Workspace 等核心产品中,谷歌构建了庞大的 AI 生态系统。
尽管面临来自 OpenAI 等竞争对手的压力,谷歌凭借其在搜索、硬件(TPU)和开源模型(Gemma)方面的积累,依然展现出强大的竞争力。随着技术的进一步成熟和产品的落地,AI 将在更多场景中改变人们的工作和生活方式。未来,如何平衡模型能力、隐私安全与用户体验,将是各方共同面临的挑战。