谷歌 I/O 大会发布 Gemini 1.5 Pro 及视频模型 Veo,上下文窗口达 200 万
在 OpenAI 推出 GPT-4o 引发广泛关注后,Google DeepMind 首席执行官哈萨比斯在 Google I/O 大会上正式发布了多项 AI 新成果,展示了谷歌在人工智能领域的最新进展。本次发布会重点介绍了多模态助手 Project Astra、长上下文模型 Gemini 1.5 Pro、视频生成模型 Veo 以及硬件层面的 TPU Trillium。
Project Astra:具备记忆能力的 AI 助手
Project Astra 是基于 Gemini 系列模型打造的新一代智能助手。其核心目标是让 AI 真正融入日常生活,提供实时的视觉和语言交互能力。
实时交互与视觉理解
Project Astra 能够通过摄像头实时观察周围环境,并与用户进行流畅的对话。演示中,该助手能够识别物体、阅读代码,甚至协助完成找眼镜等日常任务。它具备初步的场景记忆能力,能够在对话过程中记住之前看到的信息,从而实现更连贯的交互体验。
延迟与打断机制
尽管展示了强大的多模态能力,但现场演示也暴露出一些技术挑战。例如,Project Astra 的响应延迟相比 GPT-4o 仍有一定差距,且目前尚未完全展示支持打断助手说话的功能。这将是后续迭代优化的重点方向。
背后的技术支撑
Project Astra 的能力依赖于 Gemini 系列模型的持续升级。特别是 Gemini 1.5 Pro 的上下文窗口扩展至 200 万 token,为处理长序列视觉和文本信息提供了基础。此外,谷歌还推出了轻量级模型 Gemini 1.5 Flash,并开源了 27B 参数的 Gemma 2 及视觉语言模型 PalGemma,以丰富生态系统的模型选择。
Gemini 1.5 Pro:200 万上下文窗口
Gemini 1.5 Pro 是本次发布会的核心亮点之一。其上下文窗口从之前的 100 万 token 直接提升至 200 万 token,这一突破使得模型能够处理更长、更复杂的输入内容。
长文档处理能力
拥有 200 万 token 的上下文窗口意味着 Gemini 1.5 Pro 可以一次性读取约 1500 页的 PDF 文档。这对于法律合同分析、长篇技术文档总结、代码库理解等场景具有革命性意义。用户无需将文档切片,即可让模型理解整体逻辑和细节。
代码与多模态理解
除了文本,Gemini 1.5 Pro 还能处理长视频和音频文件。结合 Project Astra 的演示,可以看出谷歌正在构建一个能够理解复杂多模态数据的统一模型架构。这使得开发者可以利用该模型构建更智能的代码辅助工具和数据分析应用。
生成式媒体模型:Veo、Imagen 3 与 Lyria
针对视频和图片生成领域,谷歌推出了多款对标行业领先水平的模型。
Veo:60 秒高质量视频生成
Veo 是谷歌最强的视频生成模型,旨在对标 Sora。它能够生成 1080p 分辨率的高质量视频,时长最长超过 1 分钟。Veo 强调画面的一致性,能够理解'延时拍摄'、'航拍'等专业术语,并根据提示词调整风格。目前,谷歌已与电影制作者展开合作,探索其在影视制作中的应用潜力。
Imagen 3:图像生成升级
Imagen 3 作为图片生成模型的更新版本,减少了视觉伪影,提升了生成图像的细节表现。特别是在生成文字方面,Imagen 3 的效果显著改善,能够准确地在图像中渲染指定的文本内容,如标志或标题。
Lyria:音乐生成模型
此次发布会还推出了音乐生成模型 Lyria,标志着谷歌在音频生成领域的布局。虽然具体参数未详细披露,但这表明谷歌正致力于构建全模态的生成式 AI 体系。
Gemini 全线产品集成
谷歌不仅展示了模型能力,更强调了将 Gemini 深度集成到现有产品线中的战略。
谷歌搜索:AI Overview
基于 Gemini,谷歌搜索推出了 AI Overview(AI 概述)功能。用户在搜索框输入问题后,系统会直接给出 AI 总结的答案及相关链接。对于复杂问题,AI Overview 采用多步推理技术,将问题拆解并排序回答。例如,查询餐厅推荐时,不仅能列出结果,还能根据距离、评分、价格等多维度自动分组,甚至支持制定餐饮计划并一键添加食材到购物车。此外,搜索功能还支持视频搜索,用户录制视频故障画面,AI 即可分析原因并提供建议。
Android 15:AI 内核操作系统
Android 系统现在与 Gemini 深度绑定,成为以 AI 为内核的操作系统。新功能包括 Circle to Search,用户只需圈选屏幕上的任何内容即可进行搜索。Gemini 助手层可随时调出,支持跨应用操作,如将生成的图片拖入 Gmail,或在电话中识别诈骗关键词并发出警报。官方强调,Gemini 已不再是简单的 App,而是安卓体验的基础设施。


