2024 年 AI 视频生成项目盘点：102 个精选

2024 年 AI 视频生成项目盘点

由人工智能（AI）大模型驱动的视频生成，正在引发影视行业的关注。抛去被机器替代的危机感，AI 视频生成也有令人可喜的一面：不仅可以作为影视专业人士的得力助手，还可以降低非专业人士的日常视频创作门槛，慢则几分钟，快则几十秒，一帧帧栩栩如生的电影级画面便显现在我们眼前。

在 2024 年，「AI 视频生成」领域涌现出了众多优秀的研究成果，大大丰富了图像内容创作的生态。这些成果来自头部科技大厂、高校院所实验室和个人开发者，部分研究也已开源。以下专注于分享那些「研究类」AI 视频生成项目中的 12 个代表性成果。

1. Google DeepMind：利用运动轨迹控制视频生成

运动控制对于生成具有表现力和吸引力的视频内容至关重要；然而，现有的大多数视频生成模型主要依靠文本提示进行控制，难以捕捉动态动作和时间组合的细微差别。

为此，来自 Google DeepMind 的研究团队及其合作者训练了一种以时空稀疏或密集运动轨迹为条件的视频生成模型。与之前的运动调节工作不同的是，这种灵活的表示方法可以编码任意数量的轨迹、特定对象或全局场景运动以及时空稀疏运动；由于其灵活性，他们将这种调节方法称为运动提示（motion prompt）。虽然用户可以直接指定稀疏轨迹，但他们也展示了如何将高级用户请求转化为详细的半密集运动提示，他们将这一过程称为运动提示扩展。

他们通过各种应用展示了这一方法的多功能性，包括相机和物体运动控制、与图像'互动'、运动传输和图像编辑。

另外，这项研究还展示了一些涌现行为，如逼真的物理现象，这表明运动提示具有探测视频模型和与未来生成世界模型交互的潜力。

论文链接：https://arxiv.org/abs/2412.02700 项目地址：https://motion-prompting.github.io/

2. Adobe 团队推出空间感知视频生成器 Track4Gen

虽然基础视频生成器可以生成视觉丰富的视频，但在外观漂移问题上仍表现较差，例如物体会逐渐退化或在帧间发生不一致的变化，从而破坏视觉连贯性。来自 Adobe Research 的研究团队及其合作者认为，这是因为在特征级别的空间跟踪方面没有明确的监督。

在这项工作中，他们推出了一种空间感知视频生成器——Track4Gen，其将视频扩散损失与跨帧点跟踪相结合，提供了对扩散特征的增强空间监督。Track4Gen 通过对现有视频生成架构进行最小限度的修改，将视频生成和点跟踪任务合并到一个网络中。Track4Gen 以 Stable Video Diffusion 为骨干，证明了统一视频生成和点跟踪是可能的，而视频生成和点跟踪通常是作为单独的任务来处理的。

广泛的评估表明，Track4Gen 可以有效地减少外观漂移，从而生成时间上稳定、视觉上连贯的视频。

论文链接：https://arxiv.org/abs/2412.06016 项目地址：https://hyeonho99.github.io/track4gen/

3. 港科大推出 AniDoc：让动画创作更简单

2D 动画的制作遵循行业标准的工作流程，包括四个基本阶段：角色设计、关键帧动画、中间处理和上色。为降低上述流程中的人工成本，来自香港科技大学的研究团队及其合作者提出了 AniDoc。

AniDoc 以视频扩散模型为基础，是一款视频线条艺术着色工具，可根据参考角色规范自动将素描序列转换为彩色动画。这一模型利用对应匹配作为明确的指导，对参考角色和每一帧艺术线条之间的变化（如姿势）具有很强的鲁棒性。

此外，这一模型甚至可以自动完成中间处理过程，用户只需提供角色图像以及开始和结束草图，就能轻松制作出时间一致的动画。

论文链接：https://arxiv.org/abs/2412.14173 项目地址：https://yihao-meng.github.io/AniDoc_demo/

4. GameGen-X：交互式开放世界游戏视频生成

来自香港科技大学、中国科学技术大学和香港中文大学的研究团队推出了 GameGen-X，它是首个专为生成式和交互式控制开放世界游戏视频而设计的扩散 Transformer 模型。

该模型模拟了大量游戏引擎功能，如创新角色、动态环境、复杂动作和各种事件，有助于生成高质量的开放域视频。此外，它还提供了交互式可控性，可根据当前片段预测和改变未来内容，从而实现游戏模拟。

为了实现这一愿景，他们首先从零开始收集并建立了一个开放世界视频游戏数据集。这是第一个也是最大的开放世界游戏视频生成和控制数据集，由 150 多款游戏的 100 多万个不同游戏视频片段组成，并附有来自 GPT-4o 的详细说明。

GameGen-X 的训练过程分为两个阶段：基础模型预训练和指令微调。首先，通过文生视频和视频延续对模型进行预训练，使其具备生成长序列、高质量开放域游戏视频的能力。为了实现交互可控性，他们在设计 InstructNet 时纳入了与游戏相关的多模态控制信号专家，使得模型能够根据用户输入调整潜在表征，首次在视频生成中将角色交互和场景内容控制统一起来。在指令微调过程中，只有 InstructNet 会被更新，而预训练的基础模型则会被冻结，这样就能在不损失生成视频内容的多样性和质量的情况下，整合互动可控性。

论文链接：https://arxiv.org/abs/2411.00769 项目地址：https://gamegen-x.github.io/

5. Meta 团队推出视频扩散模型系列 MarDini

来自 Meta 的研究团队及其合作者推出了 MarDini，这是一个全新的视频扩散模型系列，它将掩码自回归（MAR）的优势整合到一个统一的扩散模型（DM）框架中。

MAR 处理时间规划，而 DM 则侧重于非对称网络设计中的空间生成：基于 MAR 的规划模型包含大部分参数，使用低分辨率输入为每个掩码帧生成规划信号；轻量级生成模型使用这些信号，通过扩散去噪生成高分辨率帧。MarDini 的 MAR 可以根据任意帧位置上任意数量的掩码帧生成视频：单一模型可以处理视频插值（如掩码中间帧）、图生视频（如从第二帧开始掩码）和视频扩展（如掩码一半帧）。

这种高效的设计将大部分计算资源分配给了低分辨率规划模型，使得计算成本高但重要的时空注意力在规模上变得可行。MarDini 为视频插值技术建立了新的 SOTA；同时，只需几个推理步骤，它就能高效生成与更昂贵的高级图生视频模型相当的视频。

论文链接：https://arxiv.org/abs/2410.20280 项目地址：https://mardini-vidgen.github.io/

6. 北大团队提出高效视频生成算法 pyramidal flow matching

视频生成需要对广阔的时空进行建模，这需要大量的计算资源和数据。为了降低复杂性，目前流行的方法采用级联架构，避免直接进行全分辨率训练。尽管减少了计算需求，每个子阶段的单独优化却阻碍了知识共享，牺牲了灵活性。

在这项工作中，来自北京大学的研究团队及其合作者提出了一种统一的金字塔流匹配（pyramidal flow matching）算法。它将原始去噪轨迹重新解释为一系列金字塔阶段，其中只有最后一个阶段以全分辨率运行，从而实现了更高效的视频生成建模。通过精密设计，不同金字塔阶段的流程可以相互连接，以保持连续性。此外，他们还将自回归视频生成与时间金字塔相结合，以压缩全分辨率历史。整个框架可以端到端方式进行优化，只需一个统一的 DiT。

实验证明，他们的方法支持在 20.7k A100 GPU 训练小时内，以 768p 分辨率和 24 FPS 的速度生成高质量的 5 秒（最多 10 秒）视频。

论文链接：https://arxiv.org/abs/2410.05954 项目地址：https://pyramid-flow.github.io/

7. PhysGen：更懂物理的'图生视频'新方法

在这项工作中，伊利诺伊大学厄巴纳 - 香槟分校团队提出了一个图像到视频生成方法——PhysGen，其可转换单个图像和输入条件（如施加到图像中对象的力和扭矩），生成逼真、物理上合理且时间一致的视频。

他们的主要见解是将基于模型的物理仿真与数据驱动的视频生成过程相结合，从而实现可信的图像空间动力学。PhysGen 由三个核心组件构成：

图像理解模块，可有效捕获图像的几何形状、材料和物理参数；
图像空间动力学仿真模型，利用刚体物理学和推断参数来模拟逼真的行为；
基于图像的渲染和细化模块，该模块利用生成式视频扩散来生成具有模拟运动的逼真视频片段。

通过定量比较和全面的用户研究，PhysGen 生成的视频在物理和外观上都非常逼真，甚至可以精确控制，与现有的数据驱动图像到视频生成工作相比，显示出更好的效果。PhysGen 生成的视频可用于各种下游应用，如将图像转化为逼真的动画，或允许用户与图像交互并创建各种动态效果。

论文链接：https://arxiv.org/abs/2409.18964 项目地址：https://stevenlsw.github.io/physgen/

8. 清华、智谱团队推出视频生成模型 CogVideoX

在这项工作中，来自清华大学和智谱的研究团队提出了一种基于扩散 transformer（DiT）的大规模文本到视频生成模型——CogVideoX，其可以生成与文本提示对齐的 10 秒钟连续视频，帧率为 16 fps，分辨率为 768*1360 像素。

以前的视频生成模型通常动作有限、持续时间短，而且很难根据文本生成具有连贯叙事的视频。他们提出了几种设计方案来解决这些问题。首先，他们提出了一种 3D 变分自编码器（VAE）来压缩空间和时间维度的视频，从而提高压缩率和视频保真度。其次，为了改善文本与视频的对齐，他们提出了专家 transformer 和专家自适应 LayerNorm，以促进两种模态之间的深度融合。然后，通过采用渐进式训练和多分辨率帧包技术，CogVideoX 擅长生成连贯、长时间且具有显著运动特征的视频。此外，他们还开发了有效的文本视频数据处理管道，包括各种数据预处理策略和视频字幕方法，大大提高了生成质量和语义一致性。

结果表明，CogVideoX 在多个机器指标和人工评估方面都表现出了一流的性能。

论文链接：https://arxiv.org/abs/2408.06072 GitHub 地址：https://github.com/THUDM/CogVideo

9. ControlNeXt：高效的可控图像、视频生成方法

为了对扩散模型在图像和视频方面的生成结果实现更强的控制，以往的研究提出了 ControlNet、Adapters 和 ReferenceNet 等多个架构，从而集成调节控制。然而，目前的方法往往需要大量额外的计算资源，尤其是在视频生成方面，而且在训练方面面临挑战，或者控制能力较弱。

在这项工作中，来自香港中文大学和 SmartMore 的研究团队提出了一种高效的可控图像、视频生成方法——ControlNeXt。他们首先设计了一个更简单、更高效的架构，与基础模型相比，以最小的额外成本取代了复杂的分支模块。这种简洁的结构还允许该方法与其他 LoRA 权重无缝集成，无需额外训练即可改变风格。在训练方面，与其他方法相比，他们减少了多达 90% 的可学习参数。

此外，他们还提出了另一种名为'交叉归一化（Cross Normalization）'的方法来替代'Zero-Convolution'，从而实现快速、稳定的训练收敛。

论文链接：https://arxiv.org/abs/2408.06070 项目地址：https://pbihao.github.io/projects/controlnext/index.html

10. MagicTime：变形延时视频生成模型

在文生视频（T2V）领域，一个被忽视的问题是，现有模型没有充分编码真实世界的物理知识，生成的视频往往具有有限的运动和较差的变化。

来自北京大学和罗切斯特大学的研究团队及其合作者，提出了一种名为 MagicTime 的变形延时视频生成模型，该模型从延时视频中学习真实世界的物理知识，并实现了变形生成。

首先，他们设计了一个 MagicAdapter 方案来解耦时空训练，从变形视频中编码更多的物理知识，并转换预训练 T2V 模型来生成变形视频。其次，他们提出了一种适应变形延时视频的动态帧提取策略，它具有更大的变化范围，涵盖了物体变形过程，比一般视频体现了更多的物理知识。最后，他们提出了一个魔术文本编码器，以提高对变形视频提示的理解。此外，他们还创建了一个名为 ChronoMagic 的延时视频文本数据集，专门用于解锁变形视频生成能力。

实验证明，MagicTime 在生成高质量和动态变形视频方面达到了 SOTA，表明延时视频生成是构建物理世界变形模拟器的一个途径。

论文链接：https://arxiv.org/abs/2404.05014 项目地址：https://github.com/PKU-YuanGroup/MagicTime

11. EMO：由音频生成富有表现力的肖像视频

在这项工作中，阿里团队将重点关注音频线索与面部动作之间的动态和细微关系，以应对在生成'对话头像'（talking head）视频时如何提高逼真度和表现力的挑战。然而，传统技术往往无法捕捉到人类表情的全貌以及个人面部风格的独特性。

为此，他们提出了一个新的框架——EMO，它采用直接从音频到视频的合成方法，无需中间 3D 模型或面部标志。EMO 确保了整个视频的无缝帧转换和一致的身份保持，从而产生了极富表现力且栩栩如生的动画。

实验结果表明，EMO 不仅能生成令人信服的说话视频，还能生成各种风格的歌唱视频，在表现力和逼真度方面明显优于现有的 SOTA 方法。

论文链接：https://arxiv.org/abs/2402.17485 项目网站：https://humanaigc.github.io/emote-portrait-alive/

12. VideoCrafter2：克服数据限制，构建高质量视频扩散模型

文生视频的目的是根据给定的提示制作视频。最近，一些商业视频模型已经能够生成具有最小噪声、出色细节和较高审美分数的可信视频。然而，这些模型依赖于大规模、经过良好过滤的高质量视频，而这些视频并不面向大众。现有的许多研究工作都使用低质量的 WebVid-10M 数据集来训练模型，但很难生成高质量的视频。

在这项工作中，腾讯 AI Lab 团队探索了从 Stable Diffusion 扩展而来的视频模型的训练方案，并研究了利用低质量视频和合成高质量图像获得高质量视频模型的可行性。

他们首先分析了视频模型的空间和时间模块与低质量视频的分布转移之间的联系。与只训练时间模块相比，全面训练所有模块会使得空间模块和时间模块耦合更强。基于这种更强的耦合，他们通过使用高质量图像对空间模块进行微调，在不降低运动质量的情况下将分布转向更高的质量，从而形成通用的高质量视频模型。通过评估，他们证明了所提方法的优越性，尤其是在画质、运动和概念构成方面。

论文链接：https://arxiv.org/abs/2401.09047 项目地址：https://ailab-cvc.github.io/videocrafter2/