腾讯开源 HunyuanVideo 1.5:轻量级视频生成新标杆
近日,腾讯混元大模型团队正式开源了 HunyuanVideo 1.5。这是一款基于 Diffusion Transformer(DiT)架构的轻量级视频生成模型,参数量为 8.3B,旨在降低高质量视频生成的硬件门槛。
核心能力
HunyuanVideo 1.5 在保持轻量级的同时,实现了功能与效果的平衡:
- 多模态输入:支持中英文文本描述(Prompt)直接生成视频,也支持图片配合 Prompt 实现图生视频。
- 指令遵循:具备较强的指令理解能力,可精准控制运镜、人物运动、情绪表情等细节。
- 风格多样:涵盖写实、动画、积木等多种风格,并支持在视频中生成中英文文字。
- 画质表现:原生支持 5–10 秒时长的 480p 和 720p 高清视频,结合超分模型可提升至 1080p 电影级画质。
[!NOTE] 实测表明,该模型在图像与视频的时序一致性上表现稳定,能够较好地还原 Prompt 中的场景描述。
性能与部署优势
此前视频生成领域的开源 SOTA 旗舰模型通常需 20B 以上参数及 50GB+ 显存才能部署。HunyuanVideo 1.5 通过技术创新显著降低了这一门槛:
- 轻量化设计:仅 8.3B 参数即可达到开源最佳效果,被称为'开源小钢炮'。
- 推理优化:采用创新的 SSTA(Selective and Sliding Tile Attention)稀疏注意力机制,在保证质量的同时提升推理效率。
- 低显存需求:可在 14G 显存的消费级显卡上流畅运行,极大扩展了开发者与创作者的使用范围。
资源链接
项目已托管至主流开源社区,可供开发者下载研究:


