Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
www.zeeklog.com  - Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

基本信息

  • 📝 原文链接: https://arxiv.org/abs/2412.09856
  • 👥 作者: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
  • 🏷️ 关键词: Rotary Major Scan, text-to-video generation, MATE block, linear computational complexity
  • 📚 分类: 机器学习, 计算机视觉

摘要

中文摘要

文本到视频生成增强了内容创作,但计算量极大:扩散Transformer(DiT)的计算成本与像素数的平方成正比。这使得分钟长度的视频生成变得极为昂贵,限制了大多数现有模型只能生成10-20秒长度的视频。我们提出了一种线性复杂度的文本到视频生成(LinGen)框架,其成本与像素数线性相关。LinGen首次使单GPU上生成高分辨率分钟长度的视频成为可能,而不会降低质量。它用称为MATE的线性复杂度块替换了计算主导的二次复杂度块——自注意力,MATE块由一个MA分支和一个TE分支组成。MA分支针对短至长距离相关性,结合了双向Mamba2块、我们的令牌重排方法——旋转主扫描以及为长视频生成开发的审查令牌。TE分支是一个新颖的TEmporal Swin注意力块,专注于相邻令牌和中等距离令牌之间的时序相关性。MATE块解决了Mamba的相邻保持问题,并显著提高了生成视频的一致性。实验结果表明,LinGen在视频质量上优于DiT(胜率高达75.6%),同时将FLOPs(延迟)降低了高达15倍(11.5倍)。此外,自动指标和人工评估都表明,我们的LinGen-4B在视频质量上与最先进模型相当(与Gen-3、LumaLabs和Kling相比,胜率分别为50.5%、52.1%、49.1%)。这为小时长度的电影生成和实时交互式视频生成铺平了道路。我们在我们的项目网站上提供了68秒的视频生成结果和更多示例:https://lineargen.github.io/。

原文摘要

Text-to-video generation enhances content creation but is highly computationally intensive: The computational cost of Diffusion Transformers (DiTs) scales quadratically in the number of pixels. This makes minute-length video generation extremely expensive, limiting most existing models to generating videos of only 10-20 seconds length. We propose a Linear-complexity text-to-video Generation (LinGen) framework whose cost scales linearly in the number of pixels. For the first time, LinGen enables high-resolution minute-length video generation on a single GPU without compromising quality. It replaces the computationally-dominant and quadratic-complexity block, self-attention, with a linear-complexity block called MATE, which consists of an MA-branch and a TE-branch. The MA-branch targets short-to-long-range correlations, combining a bidirectional Mamba2 block with our token rearrangement method, Rotary Major Scan, and our review tokens developed for long video generation. The TE-branch is a novel TEmporal Swin Attention block that focuses on temporal correlations between adjacent tokens and medium-range tokens. The MATE block addresses the adjacency preservation issue of Mamba and improves the consistency of generated videos significantly. Experimental results show that LinGen outperforms DiT (with a 75.6% win rate) in video quality with up to 15times (11.5times) FLOPs (latency) reduction. Furthermore, both automatic metrics and human evaluation demonstrate our LinGen-4B yields comparable video quality to state-of-the-art models (with a 50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling, respectively). This paves the way to hour-length movie generation and real-time interactive video generation. We provide 68s video generation results and more examples in our project website: https://lineargen.github.io/.

论文解读

一句话总结

本文提出了一种名为LinGen的线性复杂度文本到视频生成框架,能够在单个GPU上实现高分辨率分钟级视频的生成,同时保持视频质量。

问题1:这篇论文想要解决什么具体问题?

• 问题背景:文本到视频生成技术虽然能够增强内容创作,但其计算成本非常高,尤其是Diffusion Transformers (DiTs)的计算成本与像素数量平方成正比,导致分钟级视频生成成本极高。
• 现有方案不足:现有模型大多只能生成10-20秒的短视频,而高分辨率视频生成效率低下。
• 研究目标:提出一个线性复杂度的文本到视频生成框架,实现高分辨率分钟级视频的生成,同时保持视频质量。

问题2:论文的核心创新点是什么?

• 技术创新:提出了一种名为MATE的线性复杂度块,用于替换DiTs中的自注意力块,从而降低计算成本。
• 方法改进:MATE块包含MA分支和TE分支,MA分支针对短到长距离相关性,TE分支专注于时间相关性,从而全面增强短、中、长距离相关性。
• 优势:LinGen在生成高质量视频的同时,实现了线性扩展和高达15倍的加速。

问题3:实验结果如何验证了方法的有效性?

• 关键实验:将LinGen与其他视频生成模型进行对比,包括DiT、Runway Gen3、LumaLabs和Kling等。
• 性能提升:LinGen在视频质量方面优于DiT,同时实现了高达15倍的FLOPs(或延迟)降低。
• 对比结果:LinGen在自动评估和人工评估中均表现出色,其LinGen-4B模型与最先进的模型相当。

问题4:这个研究的实际应用价值是什么?

• 应用场景:视频内容创作、视频编辑、虚拟现实和增强现实等。
• 实施建议:在实际部署中,可以考虑结合采样蒸馏技术进一步提高效率。
• 局限与展望:LinGen目前主要针对分钟级视频生成,未来可以扩展到更长时间的视频生成,并探索实时交互式视频生成等应用。

Read more

【OpenClaw从入门到精通】第10篇:OpenClaw生产环境部署全攻略:性能优化+安全加固+监控运维(2026实测版)

【OpenClaw从入门到精通】第10篇:OpenClaw生产环境部署全攻略:性能优化+安全加固+监控运维(2026实测版)

摘要:本文聚焦OpenClaw从测试环境走向生产环境的核心痛点,围绕“性能优化、安全加固、监控运维”三大维度展开实操讲解。先明确生产环境硬件/系统选型标准,再通过硬件层资源管控、模型调度策略、缓存优化等手段提升响应速度(实测响应效率提升50%+);接着从网络、权限、数据三层构建安全防护体系,集成火山引擎安全方案拦截高危操作;最后落地TenacitOS可视化监控与Prometheus告警体系,配套完整故障排查清单和虚拟实战案例。全文所有配置、代码均经实测验证,兼顾新手入门实操性和进阶读者的生产级部署需求,帮助开发者真正实现OpenClaw从“能用”到“放心用”的跨越。 优质专栏欢迎订阅! 【DeepSeek深度应用】【Python高阶开发:AI自动化与数据工程实战】【YOLOv11工业级实战】 【机器视觉:C# + HALCON】【大模型微调实战:平民级微调技术全解】 【人工智能之深度学习】【AI 赋能:Python 人工智能应用实战】【数字孪生与仿真技术实战指南】 【AI工程化落地与YOLOv8/v9实战】【C#工业上位机高级应用:高并发通信+性能优化】 【Java生产级避坑指南:

By Ne0inhk
ARM Linux 驱动开发篇--- Linux 并发与竞争实验(互斥体实现 LED 设备互斥访问)--- Ubuntu20.04互斥体实验

ARM Linux 驱动开发篇--- Linux 并发与竞争实验(互斥体实现 LED 设备互斥访问)--- Ubuntu20.04互斥体实验

🎬 渡水无言:个人主页渡水无言 ❄专栏传送门: 《linux专栏》《嵌入式linux驱动开发》《linux系统移植专栏》 ❄专栏传送门: 《freertos专栏》《STM32 HAL库专栏》 ⭐️流水不争先,争的是滔滔不绝  📚博主简介:第二十届中国研究生电子设计竞赛全国二等奖 |国家奖学金 | 省级三好学生 | 省级优秀毕业生获得者 | ZEEKLOG新星杯TOP18 | 半导纵横专栏博主 | 211在读研究生 在这里主要分享自己学习的linux嵌入式领域知识;有分享错误或者不足的地方欢迎大佬指导,也欢迎各位大佬互相三连 目录 前言  一、实验基础说明 1.1、互斥体简介 1.2 本次实验设计思路 二、硬件原理分析(看过之前博客的可以忽略) 三、实验程序编写 3.1 互斥体 LED 驱动代码(mutex.c) 3.2.1、设备结构体定义(28-39

By Ne0inhk
Flutter for OpenHarmony:swagger_dart_code_generator 接口代码自动化生成的救星(OpenAPI/Swagger) 深度解析与鸿蒙适配指南

Flutter for OpenHarmony:swagger_dart_code_generator 接口代码自动化生成的救星(OpenAPI/Swagger) 深度解析与鸿蒙适配指南

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net 前言 后端工程师扔给你一个 Swagger (OpenAPI) 文档地址,你会怎么做? 1. 对着文档,手写 Dart Model 类(容易写错字段类型)。 2. 手写 Retrofit/Dio 的 API 接口定义(容易拼错 URL)。 3. 当后端修改了字段名,你对着报错修半天。 这是重复劳动的地狱。 swagger_dart_code_generator 可以将 Swagger (JSON/YAML) 文件直接转换为高质量的 Dart 代码,包括: * Model 类:支持 json_serializable,带 fromJson/

By Ne0inhk
Linux 开发别再卡壳!makefile/git/gdb 全流程实操 + 作业解析,新手看完直接用----《Hello Linux!》(5)

Linux 开发别再卡壳!makefile/git/gdb 全流程实操 + 作业解析,新手看完直接用----《Hello Linux!》(5)

文章目录 * 前言 * make/makefile * 文件的三个时间 * Linux第一个小程序-进度条 * 回车和换行 * 缓冲区 * 程序的代码展示 * git指令 * 关于gitee * Linux调试器-gdb使用 * 作业部分 前言 做 Linux 开发时,你是不是也遇到过这些 “卡脖子” 时刻?写 makefile 时,明明语法没错却报错,最后发现是依赖方法行没加 Tab;想提交代码到 gitee,记不清 git add/commit/push 的 “三板斧”,还得反复搜教程;用 gdb 调试程序,输了命令没反应,才想起编译时没加-g生成 debug 版本;甚至连写个进度条,都搞不懂\r和\n的区别,导致进度条乱跳…… 其实这些问题,

By Ne0inhk