
自 8 月初以来,我们陆续推出了 CogVideoX 系列模型,这些开源模型已成为行业领先,深受开发者喜爱。
经过持续迭代,我们在此发布并开源最新版本的视频模型 CogVideoX v1.5。
相比于原有模型,CogVideoX v1.5 将包含 5/10 秒、768P、16 帧的视频生成能力,I2V 模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解。
此次开源包括两个模型:
- CogVideoX v1.5-5B
- CogVideoX v1.5-5B-I2V
新清影
CogVideoX v1.5 也将同步上线到清影平台,并与新推出的 CogSound 音效模型结合,提供以下特色服务:
- 质量提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。
- 超高清分辨率:支持生成 10s、4K、60 帧超高清视频。
- 可变比例:支持任意比例,从而适应不同的播放场景。
- 多通道输出:同一指令/图片可以一次性生成 4 个视频。
- 带声效的 AI 视频:新清影可以生成与画面匹配的音效。

CogVideoX 技术架构
下图为 CogVideoX 的模型架构:

图|CogVideoX 架构
数据策略
数据是训练大型模型的核心,但许多视频数据存在分布噪声,不适合用于视频生成模型的训练。这些问题包括人工编辑扭曲真实动态和拍摄质量问题导致的视频降质。除了视频的内在质量,视频数据对模型训练的支持程度也至关重要。
我们将缺乏动态连通性的视频视为有害数据,并开发了一个自动化筛选框架以过滤这些数据。
针对现有视频数据缺少高质量描述文本的问题,我们开发了端到端的视频理解模型 CogVLM2-caption,专门用于生成精准的视频内容描述。这一模型提升了文本理解和指令遵循能力,能够更好地处理长且复杂的指令,确保生成的视频更贴近用户输入。

图 | 我们利用 Panda70M 模型为短视频生成字幕,通过提取关键帧创建图像字幕,再由 GPT-4 整合成视频字幕。为提升效率,我们还使用 GPT-4 对 Llama 2 模型进行了优化调整。
算法创新
为解决内容连贯性问题,我们开发了高效的三维变分自编码器(3D VAE),将视频数据压缩至原来的 2%,显著降低了训练成本和难度。



