AI 动画短片制作流程：脚本、分镜到视频生成

这篇内容整理了一套 AI 动画短片的实际制作流程：先用大模型写剧本和分镜，重点把时长、镜头数、角色外观和风格约束说清楚；再把分镜改写成适合出图的提示词，生成静帧后送入即梦、可灵等工具做视频；配音、音效和剪辑分别用 Clipchamp、剪映、MusicHero、Soundview 等工具完成。作者强调，真正容易出问题的是角色一致性和前后镜头连贯性，长剧则更要控制每集结尾悬念和分集衔接。

CryptoLab发布于 2026/6/300 浏览

AI 动画短片制作流程：脚本、分镜到视频生成

做 AI 动画短片，最容易卡住的不是生成工具，而是前期怎么把故事拆开、把角色锁住。剧本、分镜、静帧、视频、配音，这几步看着都不复杂，真正耗时间的是一致性。角色一旦漂了，后面每一步都会跟着返工。

一、先把剧本和分镜写稳

用大模型写脚本时，我更在意约束条件是否明确。风格、时长、镜头数量、角色外观、环境声音，这些信息越具体，输出越可控。反过来，如果只说'写一个精彩故事'，结果通常会很散。

还有一个小坑是格式。模型很喜欢自己加表格、分栏或者总结段，后面拿去做视频时并不方便。直接要求它输出纯文本分镜，省事很多。

下面这段提示词可以直接用，适合先跑出一个 30 秒左右的古风写实短片脚本：

假设你是一位有 30 年电影拍摄经验的世界顶级导演，拥有丰富的电影拍摄经验和超高的电影拍摄技术，同时也擅长各种影片的剧本创作。

我需要你为我创作一部时长约 30s 的，带有美术设计、音效设计、有足够看点的剧本，同时写出故事梗概、角色设计。

**故事的主题是月圆之夜的森林，九尾狐发现灵草并吃下，幻化成美人，惊讶（用户自由发挥）**

一共设计 6 个分镜头，每个分镜头约 5s，每个镜头有长有短，画面内容要描述的足够详细，脚本中要描述画面细节、角色配置、环境声音、音效、台词和旁白等，出现主角画面时要描述主角的具体特征 尽情释放你的潜能，创作出一部举世瞩目的佳作，切记，千万别落入俗套！生成结果会用于 AI 视频生成，因此在内容描述部分，尽量以 AI 视频软件能理解的方式进行书写，**需要古风写实风格。**

不要表格，直接以回复的形式给出。

如果后面要补静态参考图，可以接着让模型把每一帧改成适合出图的描述。这里重点不是'写得多漂亮'，而是把主体、风格、比例和构图说清楚：

根据你生成的脚本，重新生成相应的图片，比例 16:9，主体造型保持一致，比例「16:9」，图片风格为「CG 动画」

如果一张图反复跑偏，就别指望一次把整套视频救回来。更稳的做法是拆成单帧提示词，让模型一帧一帧写。下面这种结构更适合喂给即梦、可灵之类的工具：

忘掉之前的一切
现在你将成为 AI 图像生成器制作提示词的专家，请记住一下关键准则
以'电影感、柔和色调、胶片颗粒'作为第一要素
描述性词汇优先于语法词汇。要具体
必要时使用逗号、括号和连字符。
描述你想要的。而不是你不想要的。
集中在基本概念上。包含上下文和细节
提示模板:
[主体]、[环境]、[灯光]、[色彩]、唤起 [情绪]、[构图]。
在括号内填写具体细节:
主体：指明人物、动物、要素、地点或物体
环境：决定是在室内、室外、月球上、纳尼亚、水下还是其他地方
照明：选择柔光、环境光、阴天光、霓虹灯、摄影棚灯光等
色彩：说明是鲜艳、柔和、明亮、单色、多彩、黑白、粉色等
情绪：描述所需的情绪，如沉稳、平静、喧闹、充满活力等
构图：如肖像、大头照、特写、鸟瞰等。
还可以根据需要加入情绪或环境，如苔藓、沙漠、高山等。
用意想不到的关键词组合制作创意提示。可以随意发明自己的词语。在一个主题内保持提示词的一致性;避免多重设置。准备好接受有关风格或内容的进一步提示。例如电影风格，柔和色调，胶片颗粒--艾玛的手伸进一个布满灰尘的就盒子指尖轻抚着古老的护身符，以特写镜头捕捉她发现护身符时的好奇心

现在使用上述建议创建提示，为你上一次回复的每一帧画面描述静止图像

二、把静帧转成视频

静态图出来以后，再进即梦、可灵 AI 这类工具做视频。这里最重要的是首帧和尾帧，尤其是角色动作连续的时候。只给一张图，模型常常会自己补动作，补着补着就跑了；首尾帧一起上，画面会稳一些。

如果角色要说话，就顺手把口型也做了。对口型功能不算完美，但比后期硬裁强，至少不会让台词和嘴型完全脱节。

三、配音和音效别拖到最后

配音可以直接用剧本里的台词文本去做，Clipchamp、剪映这类工具都能把文字转语音。语气要先定好，别等剪完才发现整段听起来像说明书。

音效更适合提前规划。环境声、转场声、动作声最好跟着镜头走，不然画面已经切过去了，声音还停在上一场。剪映自带音效库够用；如果想做一点个性化的背景音乐或者氛围音，也可以试 MusicHero 之类的生成工具。可灵 AI 也能出音效，但我实际更倾向于把它当补充，不会完全依赖它。

四、剪辑时先解决连贯性

把视频、配音、音效丢进剪映后，先别急着做特效。先看三件事：镜头切换顺不顺、角色外形有没有突然变、声音有没有抢画面。

平台导出如果带水印，可以再用 Soundview 做擦除。这个步骤不花哨，但经常是成片能不能直接发布的分水岭。

AI 动画短片制作流程：脚本、分镜到视频生成