火山引擎发布两款视频大模型及多项 AI 升级
9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,首次对外发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款 AI 大模型,并公布了多项 AI 大模型的全新升级。这一系列动作展示了火山引擎在 AI 领域的最新技术积累与产品布局。
AI 应用生态展示
活动现场展示了目前 AI 大模型在 C 端最受欢迎的四款应用,分别对应娱乐、创作、问答和个性化 AI 需求四大板块:AI 奇遇、AI 音乐、AI 智能助手和 AI Bot。
AI Bot 开发平台
AI Bot 是一个全新的 AI 应用开发平台,利用 AI 大模型的强大理解能力,帮助用户开发专属于自己的 AI 应用。用户不需要懂得编程、调试,只需要按部就班地给出自己的需求,剩下的一切 AI 都会帮你完成。这大大降低了 AI 应用的开发门槛,使得非技术人员也能构建个性化的智能服务。
AI 奇遇与互动体验
在 AI 奇遇中,用户可以扮演一个角色,偶遇某些人或故事,通过用户给出的反馈,故事也会发生相应的改变,一切均由 AI 实时生成。这项技术不仅可以让用户创作出属于自己的故事,同时也能为游戏厂商提供新的创作思路,真正做到千人千面的故事情节塑造。这种动态叙事能力为交互式内容创作开辟了新的可能性。
AI 问答与逻辑推理
作为 AI 大模型最早期的应用,豆包对 AI 问答进行过多轮升级。如今已经支持最高 256K 的上下文理解,并且能够进行复杂的逻辑推理,满足用户多样化的提问需求。长上下文窗口使得处理长篇文档、复杂代码库或连续对话成为可能,显著提升了信息检索与处理的效率。
AI 音乐生成
AI 音乐模块展示了强大的创作能力,在极短的时间里就能生成一首朗朗上口的音乐,根据要求切换不同的曲风并生成歌词。豆包音乐生成模型已经成功打通了整个 AI 音乐的创作链路,普通的创作者不需要再纠结歌词、曲风和演唱效果,只需要说出要求,然后点击生成即可。
用 AI 打破视频创作边界
在视频创作领域,火山引擎及其背后的字节跳动拥有深厚的积累。抖音在全球掀起的全民视频创作热潮,造就了一个全新的互联网视频时代。因此,火山引擎的视频生成模型更关注用户在实际使用时的创作流程和创作效果,而不仅仅是简单地生成画面和动作。
DiT 架构与运镜控制
火山引擎希望用户可以在视频生成模型中,得到与实际拍摄几乎一致的画面效果。为此他们对视频生成模型进行了大量的优化,基于 DiT(Diffusion Transformer)架构结合高效的 DiT 融合计算单元,让视频生成模型拥有执行复杂指令的能力。DiT 架构结合了扩散模型(Diffusion Model)和 Transformer 的优势,在处理序列数据如视频帧时表现出更强的连贯性和一致性。
模型能够根据要求进行大动态和运镜的切换,在专业拍摄中常用的变焦、环绕、平摇、缩放、目标跟随等镜头语言效果,大模型都能做到。借助运镜切换功能,豆包视频生成模型可以真正提供更真实的拍摄效果,并且让创作者更好地展示自己的创意想法,这在以往的视频生成大模型中较少见。
主体一致性与风格保持
火山引擎还攻克了视频主体在运动时,经常会出现的服装、头饰、光影、风格突变问题。这类问题此前一直困扰视频生成模型用户,因为人们对连贯画面里的突兀变化会更加敏感。即使只有些许的差异,也会让观看体验大打折扣,而 AI 生成的不确定性,让 AI 视频在这方面的问题显得尤为严重。
对此,火山引擎借助 DiT 架构的多种特性,让视频生成模型能够对生成的画面元素进行标记,并在后续的生成中时刻保持相关元素的存在。虽然并不能保证完全的一致,但是已经能够最大程度消除明显的服装、配饰、风格变化等问题,确保视频画面不会出现易察觉的 BUG。这种机制对于制作长视频或连续场景至关重要。
多动作指令与人物插入
此外,火山引擎还解决了多动作指令互动、人物中途插入等痛点。在现场的演示视频中,就有这样的片段:一个女人生气地看向侧边,然后转头戴上眼镜,此时一个男人从画面边缘进入,拥抱住女人。虽然在传统拍摄中,这是一个很普通的镜头,但是在 AI 视频里,却要求 AI 在表情神态、多动作执行、新元素插入等方面都不能出错,才能生成一个合格的视频。
随后火山引擎还展示了多个由豆包视频生成模型制作的 AI 视频,从多人互动到运动长镜头,都可以在保证视频流畅度的同时确保视频元素的一致和主体风格不变化。在我看来已经完全满足日常的创作需求,如果愿意花更多的时间去打磨,即使是普通人也能坐在家里用 AI 制作出一部大片。
为了满足更多用户的创作风格需求,火山引擎还引入了深度优化的 Transformer 结构,大幅度提升了豆包视频生成模型的泛化能力。不仅支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格,还支持多种比例的视频生成,让模型能够被应用到各个领域。显然,这也是火山引擎对豆包视频生成模型的期待,成为每一个创作者的助手,让每个人都能创作出属于自己的作品。
豆包 AI 模型 Pro 升级
豆包视频生成模型并非巡展中唯一的看点,火山引擎同时还宣布了豆包通用模型、音乐模型等多个模型的全面升级,现在,豆包 AI 大模型可以给大家在更多领域提供更好的体验。


