CogVideoX v1.5 开源发布：支持 5/10 秒视频生成与图生视频增强

CogVideoX v1.5 Release

自 8 月初以来，我们陆续推出了 CogVideoX 系列模型，这些开源模型已成为行业领先，深受开发者喜爱。

经过持续迭代，我们在此发布并开源最新版本的视频模型 CogVideoX v1.5。

相比于原有模型，CogVideoX v1.5 将包含 5/10 秒、768P、16 帧的视频生成能力，I2V 模型支持任意尺寸比例，大幅提升图生视频质量及复杂语义理解。

此次开源包括两个模型：

CogVideoX v1.5 也将同步上线到清影平台，并与新推出的 CogSound 音效模型结合，提供以下特色服务：

CogVideoX Demo

下图为 CogVideoX 的模型架构：

CogVideoX Architecture

图｜CogVideoX 架构

数据是训练大型模型的核心，但许多视频数据存在分布噪声，不适合用于视频生成模型的训练。这些问题包括人工编辑扭曲真实动态和拍摄质量问题导致的视频降质。除了视频的内在质量，视频数据对模型训练的支持程度也至关重要。

我们将缺乏动态连通性的视频视为有害数据，并开发了一个自动化筛选框架以过滤这些数据。

针对现有视频数据缺少高质量描述文本的问题，我们开发了端到端的视频理解模型 CogVLM2-caption，专门用于生成精准的视频内容描述。这一模型提升了文本理解和指令遵循能力，能够更好地处理长且复杂的指令，确保生成的视频更贴近用户输入。

Data Captioning Process

图｜我们利用 Panda70M 模型为短视频生成字幕，通过提取关键帧创建图像字幕，再由 GPT-4 整合成视频字幕。为提升效率，我们还使用 GPT-4 对 Llama 2 模型进行了优化调整。

为解决内容连贯性问题，我们开发了高效的三维变分自编码器（3D VAE），将视频数据压缩至原来的 2%，显著降低了训练成本和难度。

更多推荐文章