早在 2021 年,团队便开始探索如何基于视频数据大规模训练视频生成模型,先后推出了 CogVideo 和 CogVideoX 系列模型。
CogVideoX 团队在数据筛选、模型结构、视频理解、transformer 架构和训练框架等多个方面进行了多项创新,并验证了 scaling law 在视频生成方面的有效性。
2024 年 7 月,清言上线了国内首个面向公众开放的视频生成产品'清影'。如今,清影迎来了重要升级:10s 时长、4k、60 帧超高清画质、任意尺寸,自带音效,以及更好的人体动作和物理世界模拟。具体体现为:
- 模型能力全面提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。
- 4K 超高清分辨率:支持生成 10s、4K、60 帧超高清视频,动态画面更加流畅。
- 可变比例:支持任意比例的图像生成视频,适应不同的播放需求。
- 多通道生成能力:同一指令/图片可以一次性生成 4 个视频。
- 带声效的 AI 视频:新清影可以生成与画面匹配的音效了。
此次新清影升级,基于 CogVideoX 模型的最新技术进展和我们最新推出的音效模型 CogSound。
CogVideoX:模型进一步升级
CogVideoX 是我们在视频生成领域的最新成果,在内容连贯性、可控性和训练效率等方面实现了多项创新。
下图为 CogVideoX 的模型架构:

众所周知,数据是大模型训练的关键,但相当一部分视频数据的分布噪声很大,并不适用于视频生成模型的训练。这些问题包括(1)经人工编辑的视频可能扭曲真实动态信息,(2)因相机抖动和设备不达标等拍摄问题导致的视频质量大幅下降。除了视频的内在质量,视频数据对模型训练的支持程度也至关重要。我们将动态信息最少或动态方面缺乏连通性的视频看作是'有害的'。为此,我们专门构建了一个自动化的数据筛选框架,来过滤不良数据。
针对内容连贯性问题,我们自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,大大减少了视频扩散生成模型的训练成本和难度。我们将因果三维卷积(Causal 3D convolution)作为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备了不同分辨率迁移使用的能力。同时,在时间维度上因果卷积的形式,也使得模型具备了视频编解码从前向后的序列独立性,便于通过微调向更高帧率和更长时间泛化。在工程部署方面,我们基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器做了微调和部署,使其能够在更小的显存占用下支持极高帧数视频的编解码。

为解决大多现有视频数据缺乏对应描述性文本或描述质量低下的问题,我们自研了一个端到端的专门用于标注视频数据的视频理解模型 CogVLM2-caption,为海量视频数据生成详细的、贴合内容的描述,进而增强模型的文本理解和指令遵循能力,更好地理解超长、复杂的 prompt,生成的视频也更符合用户的输入。

我们也自研了一个融合文本、时间、空间三个维度的 transformer 架构。该架构摒弃了传统的 cross attention 模块,在输入阶段就将文本 embedding 和视频 embedding concat 起来,以便更充分地进行两种模态的交互。我们通过 expert adaptive layernorm 弥补了文本和视频两个模态在特征空间上的差异,从而更有效地利用扩散模型中的时间步信息,使得模型能够高效地利用参数,进而更好地将视觉信息与语义信息对齐。
其中,注意力模块采用了 3D 全注意力机制,先前的研究通常使用分离的空间和时间注意力或分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,也无法与现有的高效训练框架适配。
在位置编码模块方面,我们设计了 3D RoPE,有效提升了在时间维度上捕捉帧间关系的能力,建立起了视频中的长程依赖。
最后,为了提高训练效率,我们构建了一个扩散模型高效训练框架,通过各种并行计算和极致的时间优化,我们能够快速地训练较长的视频序列;借鉴 NaViT 的做法,我们的模型可以同时训练各种不同分辨率、不同时长的视频,而无需对视频进行裁剪,从而避免了因各种裁剪可能导致的偏差,同时模型也具备了生成任意分辨率视频的能力。



