Stability AI 推出了新的文本生成动画工具包 Stable Animation SDK,支持文本、文本 + 初始图像、文本 + 视频多种输入方式。使用者可以调用包括 Stable Diffusion 2.0、Stable Diffusion XL 在内的所有 Stable Diffusion 模型来生成动画。
核心功能与输入模式
Stable Animation SDK 主要支持三种创建动画的方式:
- 文本转动画:用户输入文本提示词(Prompt)并调整各种参数以生成动画,流程与传统的 Stable Diffusion 文生图相似,但输出为动态序列。
- 文本输入 + 初始图像输入:用户提供一个初始图像作为动画的起点。系统将图像特征与文本 Prompt 结合,生成最终的输出动画,实现从静态到动态的转换。
- 视频输入 + 文本输入:用户提供一个初始视频作为动画的基础。通过调整各种参数,根据文本 Prompt 对原视频进行风格迁移或内容修改,生成最终的输出动画。
此外,SDK 对生成视频的时长没有限制,但长视频将需要更长的生成时间。目前官方正在对工具进行技术优化,不久后将公开驱动动画 API 的组件源代码。
风格预设与参数配置
Stable Animation SDK 提供了丰富的预设风格,共计十五种,涵盖:
- 3D 模型
- 仿真胶片
- 动漫
- 电影
- 漫画书
- 数码艺术
- 增强幻想艺术
- 等距投影
- 线稿
- 低多边形
- 造型胶土
- 霓虹朋克
- 折纸
- 摄影
- 像素艺术
在生成过程中,用户可以设置许多关键参数,例如 steps(步数)、sampler(采样器)、scale(引导系数)、seed(随机种子)。其中,Cadence 值是一个重要参数,它决定了帧之间的间隔。默认情况下,每生成 1 帧,Cadence 值设置为 1 个静止图像。用户可根据不同的动画模式选择较低或较高的 Cadence 值。Cadence 值的上限是动画中的总帧数,即至少生成一张静止图像。对于视频转视频的模式,Cadence 必须为 1:1。
计费与成本估算
目前,动画功能 API 的使用是以积分计费的,10 美元可抵 1000 积分。使用 Stable Diffusion v1.5 模型,在默认设置值(512x512 分辨率,30 steps)下,生成 100 帧(大约 8 秒)视频将消耗 37.5 积分。受参数、时长等各种因素的影响,生成视频的费用并不固定。随着分辨率提升(如 768x768 或 1024x1024)或步数增加,积分消耗会相应上升。
安装与环境配置
要创建动画并测试 SDK 的功能,开发者需要运行用户界面或编写代码调用 API。具体步骤如下:
- 环境准备:在开发应用程序时,需要先设置一个 Python 虚拟环境,确保依赖版本兼容。
- 安装 SDK:在虚拟环境中安装 Animation SDK 包。
- 配置密钥:获取 API 访问凭证并配置环境变量。
- 调用接口:根据文档示例发送请求,传入 Prompt 和参数。
具体的使用说明书通常包含在 SDK 的仓库文档中,建议参考官方提供的示例代码进行调试。
行业背景与技术挑战
最近,视频生成领域变得越来越热闹。除了 Stability AI 的工具,AI 视频生成新秀 Gen-2 也流出了内测作品,带来了文生视频、文本 + 参考图像生视频、静态图片转视频、视频风格迁移、故事板、Mask 渲染和个性化等功能。此外,也有设计师利用 ChatGPT 和 MidJourney 组合制作动画小电影。
自 Stable Diffusion 开源后,一些开发者通过 Google Colab 等形式分享了各种魔改后的功能,自动生成动画功能一步步被开发出来。例如国外视频特效团队 Corridor 基于 Stable Diffusion 训练 AI,能让真人视频转换为动画版本。
然而,社区对新工具的效果也存在质疑。部分用户反馈,Stable Animation SDK 生成的视频在连贯性上仍有不足,与 Deforum 相比,可能缺乏严格的时间线控制,表现为非常松散的一帧接一帧的图像。这反映了当前 AI 视频生成技术在时序一致性上的普遍挑战。
总结与展望
AIGC 技术的未来发展前景广阔。随着人工智能技术的不断发展,AIGC 技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC 技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用。对于程序员和技术人员来说,掌握这些新工具的能力至关重要。未来,随着算法的迭代,视频生成的连贯性和可控性有望得到显著提升。


