七火山发布 Etna 模型：15 秒 4K 60 帧文生视频技术解析

综述由AI生成七火山在超讯通信大会上展示了名为 Etna 的 AI 视频生成模型，实现了 15 秒 4K 60 帧的高清视频生成。该模型基于 Diffusion Transformer 架构，引入了时空压缩、视觉 Transformer 及深度语义理解等技术，旨在颠覆短视频创作模式并推动短剧出海市场。文章详细解析了其技术架构、核心能力及文生视频底层原理。

清心发布于 2025/2/6更新于 2026/6/327 浏览

七火山发布 Etna 模型：15 秒 4K 60 帧文生视频技术解析

OpenAI 的 Sora 彻底点燃了 AI 视频生成的热潮。不仅 Stable Video 上线公测，Pika 推出了对口型 Lip Sync 功能，LTX Studio 也提供了电影制作平台。国内厂商也在迅速跟进。在超讯通信 X 七火山大会上，一段高清 4K 文生视频演示引发了关注。

作为背后工具的 Etna 模型，在视频长度上达到了 15 秒，并实现了 60 FPS 的超高帧率。这大大提高了视频的流畅性和观看体验。相比之下，其他 AI 视频模型通常最高只有每秒 30 帧。无论是水母、鲸鱼、章鱼等生物，还是冲浪者、滑雪者等动作场景，Etna 都做到了细节高清、动作连贯，分辨率达到 3840x2160。

Etna 的技术架构创新

Etna 之所以能复现 Sora 的效果，关键在于其采用了 Diffusion Transformer（DiT）架构。Sora 的核心创新是能够灵活处理不同维度数据的 Diffusion Transformer。

时空压缩器：将原始视频转映射到潜空间（Latent Space）。
视觉 Transformer（ViT）：对分词后的潜表征进行处理，输出去除噪声后的潜表征。
引导系统：类似 CLIP 的系统根据用户指令（经大语言模型增强）和潜视觉提示，引导扩散模型生成具有特定风格或主题的视频。经过多次去噪处理后，得到生成视频的潜表征，再通过解码器映射回像素空间。

由于视频的时空特性，应用 DiT 面临主要挑战：如何从空间和时间上将视频压缩到潜空间以实现高效去噪；如何将压缩潜空间转换为 patches 输入 Transformer；如何处理长距离的时空依赖性并确保内容一致性。

为此，Etna 模型在主干网络上采用 Diffusion 架构，并在更大的数据集上实验和适配与 Sora 相似的 Diffusion+Transform 架构。融合 Diffusion 模型和 Transformer 模型的优势，形成了高效且先进的新型模型架构。这不仅提升了模型的生成效率，还保证了生成内容的高质量和高一致性。

核心能力详解

时空理解能力

Etna 模型在语言模型和图像模型中插入了时空卷积和注意力层，能够处理视频数据，即考虑图像序列中的时间连续性。这意味着 Etna 拥有了一定的时空理解能力，从而能够理解并生成具有时间维度的视频内容。

视频时长与帧率优化

Etna 模型支持生成视频时长达到 8-15 秒，且视频流畅度极高，每秒可达 60 帧。这一特性使得生成的视频不仅内容丰富，而且视觉效果流畅自然，极大提升了用户观看体验。

深度语义理解能力

文本提示对于指导文本到视频模型至关重要。以 Sora 为例，提示中包含了人物的动作、设定、角色出场、期望的情绪以及场景氛围。Etna 模型特别强调了对输入文本的深度理解，借鉴了 Sora 的成功经验，能够更准确地捕捉和转化文本信息为视频内容。

例如，针对维多利亚冠鸽的特写 Prompt：'这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的，而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜，给人一种帝王的威严的印象。背景是模糊的，吸引人们注意到这只鸟引人注目的外表。'Etna 生成的冠鸽非常忠实于 Prompt，还原了细腻的控制能力。

高清晰度与丰富细节

与早期的视频生成模型相比，Etna 在视频清晰度和图像细节方面取得了显著进步。每个场景的细节都被精细呈现，为观众带来身临其境的视觉享受。

高质量的训练数据

Etna 模型特别注重训练数据的质量，采用视频而非静态图片作为主要训练材料。传统模型主要采用静态图像，而 Etna 的方法更符合其生成目标的本质。通过优化的 patch 处理方法，Etna 模型在训练过程中能更有效地理解和模拟动态场景。具体来说，Etna 在一个大型视频数据集上进行了充分训练，过程采用了先进的深度学习技术策略，包括 LDS 大规模训练、复杂 HPO 超参数优化和 DPO 微调，确保了模型的强大性能和生成能力。

行业影响与未来展望

目前，七火山已经获得了来自上市公司超讯通信的战略投资。随着 TikTok、Instagram Reels 和 Snapchat 等平台的兴起，短视频成为数字生态系统中最受欢迎的内容之一。短剧这一形态更是创造了爆款奇迹，市场规模巨大。

AI 视频技术的突破将颠覆整个行业。现有的短视频创作模式可能会被彻底改变。七火山的 AI 多模态布局，除了 Etna 之外，还包括 Lava（短剧 AI 译制系统）、miniTV（AI 短剧出海分发平台）和 Bromo（图片超分工具），整合了 AI 系统能力，全面进军 AI 短剧制作领域。

文生视频技术原理补充

为了更深入理解此类模型的工作原理，以下补充文生视频（Text-to-Video）的基础技术原理。

七火山发布 Etna 模型：15 秒 4K 60 帧文生视频技术解析

七火山发布 Etna 模型：15 秒 4K 60 帧文生视频技术解析

Etna 的技术架构创新

核心能力详解

时空理解能力

视频时长与帧率优化

深度语义理解能力

高清晰度与丰富细节

高质量的训练数据

行业影响与未来展望

文生视频技术原理补充

潜在空间（Latent Space）

更多推荐文章

相关免费在线工具

扩散过程（Diffusion Process）

Transformer 架构的应用

多模态对齐

部署与推理优化

总结

更多推荐文章

相关免费在线工具

七火山发布 Etna 模型：15 秒 4K 60 帧文生视频技术解析

七火山发布 Etna 模型：15 秒 4K 60 帧文生视频技术解析

Etna 的技术架构创新

核心能力详解

时空理解能力

视频时长与帧率优化

深度语义理解能力

高清晰度与丰富细节

高质量的训练数据

行业影响与未来展望

文生视频技术原理补充

潜在空间（Latent Space）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

扩散过程（Diffusion Process）

Transformer 架构的应用

多模态对齐

部署与推理优化

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具