七火山发布 Etna 模型:15 秒 4K 60 帧文生视频技术解析
七火山在超讯通信大会上展示了名为 Etna 的 AI 视频生成模型,实现了 15 秒 4K 60 帧的高清视频生成。该模型基于 Diffusion Transformer 架构,引入了时空压缩、视觉 Transformer 及深度语义理解等技术,旨在颠覆短视频创作模式并推动短剧出海市场。文章详细解析了其技术架构、核心能力及文生视频底层原理。

七火山在超讯通信大会上展示了名为 Etna 的 AI 视频生成模型,实现了 15 秒 4K 60 帧的高清视频生成。该模型基于 Diffusion Transformer 架构,引入了时空压缩、视觉 Transformer 及深度语义理解等技术,旨在颠覆短视频创作模式并推动短剧出海市场。文章详细解析了其技术架构、核心能力及文生视频底层原理。

OpenAI 的 Sora 彻底点燃了 AI 视频生成的热潮。不仅 Stable Video 上线公测,Pika 推出了对口型 Lip Sync 功能,LTX Studio 也提供了电影制作平台。国内厂商也在迅速跟进。在超讯通信 X 七火山大会上,一段高清 4K 文生视频演示引发了关注。
作为背后工具的 Etna 模型,在视频长度上达到了 15 秒,并实现了 60 FPS 的超高帧率。这大大提高了视频的流畅性和观看体验。相比之下,其他 AI 视频模型通常最高只有每秒 30 帧。无论是水母、鲸鱼、章鱼等生物,还是冲浪者、滑雪者等动作场景,Etna 都做到了细节高清、动作连贯,分辨率达到 3840x2160。
Etna 之所以能复现 Sora 的效果,关键在于其采用了 Diffusion Transformer(DiT)架构。Sora 的核心创新是能够灵活处理不同维度数据的 Diffusion Transformer。
由于视频的时空特性,应用 DiT 面临主要挑战:如何从空间和时间上将视频压缩到潜空间以实现高效去噪;如何将压缩潜空间转换为 patches 输入 Transformer;如何处理长距离的时空依赖性并确保内容一致性。
为此,Etna 模型在主干网络上采用 Diffusion 架构,并在更大的数据集上实验和适配与 Sora 相似的 Diffusion+Transform 架构。融合 Diffusion 模型和 Transformer 模型的优势,形成了高效且先进的新型模型架构。这不仅提升了模型的生成效率,还保证了生成内容的高质量和高一致性。
Etna 模型在语言模型和图像模型中插入了时空卷积和注意力层,能够处理视频数据,即考虑图像序列中的时间连续性。这意味着 Etna 拥有了一定的时空理解能力,从而能够理解并生成具有时间维度的视频内容。
Etna 模型支持生成视频时长达到 8-15 秒,且视频流畅度极高,每秒可达 60 帧。这一特性使得生成的视频不仅内容丰富,而且视觉效果流畅自然,极大提升了用户观看体验。
文本提示对于指导文本到视频模型至关重要。以 Sora 为例,提示中包含了人物的动作、设定、角色出场、期望的情绪以及场景氛围。Etna 模型特别强调了对输入文本的深度理解,借鉴了 Sora 的成功经验,能够更准确地捕捉和转化文本信息为视频内容。
例如,针对维多利亚冠鸽的特写 Prompt:'这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王的威严的印象。背景是模糊的,吸引人们注意到这只鸟引人注目的外表。'Etna 生成的冠鸽非常忠实于 Prompt,还原了细腻的控制能力。
与早期的视频生成模型相比,Etna 在视频清晰度和图像细节方面取得了显著进步。每个场景的细节都被精细呈现,为观众带来身临其境的视觉享受。
Etna 模型特别注重训练数据的质量,采用视频而非静态图片作为主要训练材料。传统模型主要采用静态图像,而 Etna 的方法更符合其生成目标的本质。通过优化的 patch 处理方法,Etna 模型在训练过程中能更有效地理解和模拟动态场景。具体来说,Etna 在一个大型视频数据集上进行了充分训练,过程采用了先进的深度学习技术策略,包括 LDS 大规模训练、复杂 HPO 超参数优化和 DPO 微调,确保了模型的强大性能和生成能力。
目前,七火山已经获得了来自上市公司超讯通信的战略投资。随着 TikTok、Instagram Reels 和 Snapchat 等平台的兴起,短视频成为数字生态系统中最受欢迎的内容之一。短剧这一形态更是创造了爆款奇迹,市场规模巨大。
AI 视频技术的突破将颠覆整个行业。现有的短视频创作模式可能会被彻底改变。七火山的 AI 多模态布局,除了 Etna 之外,还包括 Lava(短剧 AI 译制系统)、miniTV(AI 短剧出海分发平台)和 Bromo(图片超分工具),整合了 AI 系统能力,全面进军 AI 短剧制作领域。
为了更深入理解此类模型的工作原理,以下补充文生视频(Text-to-Video)的基础技术原理。
传统的扩散模型直接在像素空间操作计算量巨大。现代模型如 Sora 和 Etna 通常使用潜在扩散模型(LDM)。首先通过编码器将图像或视频压缩到低维的潜在空间中,然后在潜在空间中进行去噪扩散过程,最后通过解码器还原。这种方法大大降低了计算成本并提高了生成速度。
扩散模型包含前向加噪和反向去噪两个过程。前向过程逐步向数据中添加高斯噪声,直到变成纯噪声。反向过程则是学习如何从噪声中恢复出原始数据。对于视频生成,这个过程需要在时间和空间两个维度上进行,确保每一帧之间的连贯性。
Transformer 最初用于自然语言处理,因其强大的序列建模能力被引入计算机视觉。在视频生成中,Transformer 可以捕捉长距离的依赖关系,这对于保持视频中物体在长时间跨度内的一致性至关重要。DiT(Diffusion Transformer)将 Transformer 作为扩散模型的主干网络,替代了传统的 U-Net 结构,能够更好地处理高分辨率和长视频序列。
为了让生成的视频符合文本描述,模型需要实现文本和视觉的对齐。这通常通过对比学习(Contrastive Learning)来实现,类似于 CLIP 模型。通过将文本嵌入和视觉嵌入映射到同一向量空间,模型可以计算它们之间的相似度,从而在生成过程中引导输出结果匹配文本语义。
在实际应用中,视频生成模型的推理速度是关键瓶颈。Etna 模型通过量化技术和模型剪枝来优化推理性能。同时,利用 GPU 集群进行并行计算,可以显著缩短生成时间。此外,缓存机制也被用于复用已生成的中间特征,减少重复计算。这些优化措施使得 Etna 能够在商业场景中提供稳定的服务。
Etna 模型的问世标志着国产文生视频技术的一次重大突破。通过结合 Diffusion 和 Transformer 的优势,利用高质量视频数据进行训练,并引入时空理解机制,Etna 实现了 15 秒 4K 60 帧的高质量视频生成。这将有助于降低视频创作门槛,推动 AI 在影视、广告及短剧出海等领域的应用落地。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online