AI 动画短片制作流程:脚本、分镜到视频生成
做 AI 动画短片,最容易卡住的不是生成工具,而是前期怎么把故事拆开、把角色锁住。剧本、分镜、静帧、视频、配音,这几步看着都不复杂,真正耗时间的是一致性。角色一旦漂了,后面每一步都会跟着返工。
一、先把剧本和分镜写稳
用大模型写脚本时,我更在意约束条件是否明确。风格、时长、镜头数量、角色外观、环境声音,这些信息越具体,输出越可控。反过来,如果只说'写一个精彩故事',结果通常会很散。
还有一个小坑是格式。模型很喜欢自己加表格、分栏或者总结段,后面拿去做视频时并不方便。直接要求它输出纯文本分镜,省事很多。
下面这段提示词可以直接用,适合先跑出一个 30 秒左右的古风写实短片脚本:
假设你是一位有 30 年电影拍摄经验的世界顶级导演,拥有丰富的电影拍摄经验和超高的电影拍摄技术,同时也擅长各种影片的剧本创作。
我需要你为我创作一部时长约 30s 的,带有美术设计、音效设计、有足够看点的剧本,同时写出故事梗概、角色设计。
**故事的主题是月圆之夜的森林,九尾狐发现灵草并吃下,幻化成美人,惊讶(用户自由发挥)**
一共设计 6 个分镜头,每个分镜头约 5s,每个镜头有长有短,画面内容要描述的足够详细,脚本中要描述画面细节、角色配置、环境声音、音效、台词和旁白等,出现主角画面时要描述主角的具体特征 尽情释放你的潜能,创作出一部举世瞩目的佳作,切记,千万别落入俗套!生成结果会用于 AI 视频生成,因此在内容描述部分,尽量以 AI 视频软件能理解的方式进行书写,**需要古风写实风格。**
不要表格,直接以回复的形式给出。
如果后面要补静态参考图,可以接着让模型把每一帧改成适合出图的描述。这里重点不是'写得多漂亮',而是把主体、风格、比例和构图说清楚:
根据你生成的脚本,重新生成相应的图片,比例 16:9,主体造型保持一致,比例「16:9」,图片风格为「CG 动画」
如果一张图反复跑偏,就别指望一次把整套视频救回来。更稳的做法是拆成单帧提示词,让模型一帧一帧写。下面这种结构更适合喂给即梦、可灵之类的工具:
忘掉之前的一切
现在你将成为 AI 图像生成器制作提示词的专家,请记住一下关键准则
以'电影感、柔和色调、胶片颗粒'作为第一要素
描述性词汇优先于语法词汇。要具体
必要时使用逗号、括号和连字符。
描述你想要的。而不是你不想要的。
集中在基本概念上。包含上下文和细节
提示模板:
[主体]、[环境]、[灯光]、[色彩]、唤起 [情绪]、[构图]。
在括号内填写具体细节:
主体:指明人物、动物、要素、地点或物体
环境:决定是在室内、室外、月球上、纳尼亚、水下还是其他地方
照明:选择柔光、环境光、阴天光、霓虹灯、摄影棚灯光等
色彩:说明是鲜艳、柔和、明亮、单色、多彩、黑白、粉色等
情绪:描述所需的情绪,如沉稳、平静、喧闹、充满活力等
构图:如肖像、大头照、特写、鸟瞰等。
还可以根据需要加入情绪或环境,如苔藓、沙漠、高山等。
用意想不到的关键词组合制作创意提示。可以随意发明自己的词语。在一个主题内保持提示词的一致性;避免多重设置。准备好接受有关风格或内容的进一步提示。例如电影风格,柔和色调,胶片颗粒--艾玛的手伸进一个布满灰尘的就盒子指尖轻抚着古老的护身符,以特写镜头捕捉她发现护身符时的好奇心
现在使用上述建议创建提示,为你上一次回复的每一帧画面描述静止图像
二、把静帧转成视频
静态图出来以后,再进即梦、可灵 AI 这类工具做视频。这里最重要的是首帧和尾帧,尤其是角色动作连续的时候。只给一张图,模型常常会自己补动作,补着补着就跑了;首尾帧一起上,画面会稳一些。
如果角色要说话,就顺手把口型也做了。对口型功能不算完美,但比后期硬裁强,至少不会让台词和嘴型完全脱节。
三、配音和音效别拖到最后
配音可以直接用剧本里的台词文本去做,Clipchamp、剪映这类工具都能把文字转语音。语气要先定好,别等剪完才发现整段听起来像说明书。
音效更适合提前规划。环境声、转场声、动作声最好跟着镜头走,不然画面已经切过去了,声音还停在上一场。剪映自带音效库够用;如果想做一点个性化的背景音乐或者氛围音,也可以试 MusicHero 之类的生成工具。可灵 AI 也能出音效,但我实际更倾向于把它当补充,不会完全依赖它。
四、剪辑时先解决连贯性
把视频、配音、音效丢进剪映后,先别急着做特效。先看三件事:镜头切换顺不顺、角色外形有没有突然变、声音有没有抢画面。
平台导出如果带水印,可以再用 Soundview 做擦除。这个步骤不花哨,但经常是成片能不能直接发布的分水岭。

