AI视频制作完整流程指南

模型	特点	适用场景
ChatGPT (OpenAI)	综合能力强，生态完善	通用场景，适合新手
Claude (Anthropic)	长文本处理优秀，逻辑清晰	复杂剧本、多角色故事
Gemini (Google)	多模态理解，可以分析参考图片	需要参考现有视觉素材
Llama (Meta)	开源可本地部署	注重隐私或需要定制

模型	特点	适用场景
文心一言 (百度)	中文理解优秀，文化背景丰富	中国风、传统文化题材
通义千问 (阿里)	多模态能力强	需要图文结合的场景
讯飞星火	语音交互出色	需要语音输入的场景
智谱清言 (GLM)	学术研究背景，逻辑严谨	科普、教育类视频
Kimi (月之暗面)	超长文本处理（200万字）	长篇故事、系列视频

实用技巧

分步提问法：不要一次性要求所有内容，先让AI生成大纲，再逐步细化
参考案例法：提供你喜欢的视频链接或描述，让AI学习风格
迭代优化法：生成初稿后，针对不满意的部分单独优化
多模型对比：同一个创意在不同模型中生成，选择最佳结果

第二步：画面生成 - 从文字到视觉

有了详细的提示词，接下来就是将文字转化为视觉画面。这个过程分为两个核心环节：

2.1 分镜画面生成（AI绘图）

主流AI绘图工具对比

工具	优势	劣势	价格
Midjourney	艺术风格出众，画面精美	需要Discord使用，学习曲线陡	$10-60/月
Stable Diffusion	开源免费，可控性强，支持本地部署	需要一定技术基础，显卡要求高	免费（需硬件）
DALL-E 3	提示词理解准确，与ChatGPT集成	风格相对保守，创意度较低	$20/月（ChatGPT Plus）
文心一格	国风特色，中文提示词友好	国际化风格较弱	部分免费

关键技术：确保画面一致性

AI绘图最大的挑战是角色一致性。同一个角色在不同镜头中可能长得完全不同。解决方案：

1. LoRA训练

用10-20张同一角色的图片训练专属模型
适合Stable Diffusion
训练时间：30分钟-2小时

2. 参考图（Reference Image）

在Midjourney中使用 --cref 参数
在Stable Diffusion中使用ControlNet的IP-Adapter
每次生成时提供参考图

3. 固定种子（Seed）

记录满意图片的种子值
后续生成时使用相同种子
配合微调提示词实现变化

4. 风格提示词固定

将风格描述固定在提示词模板中
例如：“anime style, studio ghibli, soft lighting”

构图控制技术

ControlNet 是Stable Diffusion的强大插件，可以精确控制构图：

深度图（Depth）：控制画面的空间层次
边缘检测（Canny）：保持线条结构
姿态控制（OpenPose）：控制人物姿势
线稿（Lineart）：从线稿生成完整画面

2.2 关键帧生成视频（图生视频）

有了静态图片，下一步是让它们"动起来"。

主流图生视频工具

工具	特点	视频时长	价格
Runway Gen-3	运动控制精准，专业级效果	5-10秒	$12-76/月
Pika Labs	简单易用，快速上手	3-4秒	$8-58/月
Kling 可灵 (快手)	国产优秀，效果惊艳，物理真实	5-10秒	部分免费
Sora (OpenAI)	长视频生成（最长60秒），物理效果最真实	最长60秒	未公开定价
Luma Dream Machine	物理效果真实，免费额度多	5秒	部分免费

核心参数设置

1. 运动幅度（Motion Strength）

低（1-3）：微动，适合人物特写、静物
中（4-6）：正常运动，适合日常场景
高（7-10）：大幅运动，适合动作场景

2. 镜头运动（Camera Movement）

推进（Push In）：营造紧张感
拉远（Pull Out）：展现全景
环绕（Orbit）：展示物体全貌
跟随（Follow）：跟随主体移动

3. 视频时长

短视频（3-5秒）：适合快节奏剪辑
中等（5-10秒）：平衡质量和时长
长视频（10秒+）：需要更强算力，质量可能下降

4. 帧率设置

24fps：电影感
30fps：标准视频
60fps：流畅运动（部分工具支持）

5. 风格一致性

使用相同的风格提示词
保持相同的色调和光线设置
批量生成时使用相同参数

实用技巧

分段生成：长视频分成多个短片段生成，再剪辑拼接
关键帧控制：在Runway等工具中，可以指定起始帧和结束帧
运动提示词：在提示词中明确描述运动方式，如"camera slowly zooms in"
多次生成：同一张图生成3-5次，选择最佳效果

第三步：剪辑 - 赋予视频生命

有了素材，剪辑是将它们组合成完整故事的关键步骤。

常用剪辑软件对比

软件	优势	劣势	适用人群	价格
Adobe Premiere Pro	功能全面，行业标准，插件丰富	学习曲线陡，价格较高	专业创作者	$22.99/月
Final Cut Pro	Mac优化好，性能优秀，磁性时间线	仅支持Mac，一次性买断	Mac用户	$299.99一次性
DaVinci Resolve	调色强大，免费版功能完整	界面复杂，需要学习	注重调色的创作者	免费/付费$295
剪映	简单易上手，模板丰富，AI功能多	专业功能有限	新手、短视频创作者	免费/会员

常用剪辑手法详解

1. 跳切（Jump Cut）

特点：快速切换，省略中间过程
适用场景：
- Vlog、教程类视频
- 快节奏内容
- 去除冗余部分
示例：镜头1：开始说话 → 跳切 → 镜头2：说话中段 → 跳切 → 镜头3：结束

2. 交叉剪辑（Cross-Cutting）

特点：两条或多条故事线交替展示
适用场景：
- 平行叙事
- 制造悬念
- 对比展示
示例：场景A：主角在家准备 ↔ 场景B：反派在策划 ↔ 场景A：主角出门 ↔ 场景B：反派行动

3. 匹配剪辑（Match Cut）

特点：通过相似的视觉元素实现流畅过渡
适用场景：
- 时间跳跃
- 场景转换
- 创意转场
示例：
- 镜头1：圆形的太阳 → 匹配剪辑 → 镜头2：圆形的时钟
- 镜头1：关门动作 → 匹配剪辑 → 镜头2：开门动作（不同场景）

4. 蒙太奇（Montage）

特点：快速剪辑多个短镜头，压缩时间
适用场景：
- 展示时间流逝
- 训练/成长过程
- 情绪渲染
示例：训练蒙太奇：跑步 → 举重 → 拳击 → 休息 → 再训练（配合音乐节奏）

5. 转场效果

常用转场：

淡入淡出（Fade）：温和过渡，适合场景切换
划变（Wipe）：方向性转场，适合时间/空间跳跃
闪白/闪黑（Flash）：强烈转场，适合冲击性画面
无缝转场：通过运动或遮挡实现自然过渡

剪辑节奏控制

节奏 = 镜头时长 + 切换频率 + 音乐节奏

慢节奏：镜头时长5-10秒，适合抒情、风景
中等节奏：镜头时长2-5秒，适合叙事、对话
快节奏：镜头时长0.5-2秒，适合动作、音乐视频

技巧：让剪辑点与音乐节拍对齐，增强节奏感。

AI辅助剪辑功能

现代剪辑软件的AI功能：

自动字幕：剪映、Premiere Pro
智能配乐：根据画面情绪自动选择音乐
自动调色：一键应用电影级调色
场景检测：自动识别场景切换点
人物追踪：自动跟踪人物并保持在画面中心

第四步：配音 - 让视频开口说话

好的配音能让视频更有感染力。AI配音技术已经非常成熟，可以生成接近真人的语音。

AI配音软件对比

软件	特点	音色数量	语言支持	价格
ElevenLabs	音色逼真，情感丰富，支持声音克隆	数百种	29种语言	$5-330/月
微软 Azure TTS	稳定可靠，多语言支持，API友好	数百种	100+语言	按使用量计费
讯飞配音	中文效果好，方言支持，价格亲民	100+	中文为主	部分免费
剪映配音	集成方便，一站式处理	50+	中英文	免费/会员

配音制作流程

步骤1：准备文字脚本

【开场】 大家好，今天我要分享一个关于AI视频制作的完整教程。 【正文】 首先，我们需要准备好详细的提示词... 【结尾】 希望这个教程对你有帮助，我们下期再见！

步骤2：选择合适音色

音色选择原则：

教程类：清晰、专业、中性的声音
故事类：有情感起伏、表现力强的声音
广告类：有磁性、有感染力的声音
儿童内容：活泼、亲切的声音

步骤3：调整参数

关键参数：

语速：
- 慢速（0.8x）：适合教程、讲解
- 正常（1.0x）：适合大多数场景
- 快速（1.2x）：适合快节奏内容
语调：
- 平稳：适合新闻、播报
- 起伏：适合故事、情感表达
停顿：
- 在标点符号处添加自然停顿
- 使用 <break time="500ms"/>（SSML语法）控制停顿时长
情感：
- ElevenLabs等工具支持情感标签
- 例如：<emotion>excited</emotion>

步骤4：导出音频

推荐格式：

格式：WAV（无损）或 MP3（320kbps）
采样率：48kHz（视频标准）
声道：立体声

步骤5：与视频同步对齐

对齐技巧：

波形对齐：在剪辑软件中查看音频波形，精确对齐
关键词对齐：确保重要词汇与画面同步
呼吸感：在句子之间留出自然的停顿
音量平衡：配音音量应比背景音乐高6-10dB

进阶技巧：声音克隆

ElevenLabs声音克隆：

录制1-3分钟的清晰语音样本
上传到ElevenLabs
等待5-10分钟训练
使用克隆的声音生成任意文本

注意事项：

仅克隆自己或有授权的声音
避免用于欺诈或误导性内容
遵守当地法律法规

第五步：其他优化 - 完善细节

细节决定成败，这些优化能让你的视频更专业。

5.1 字幕添加

自动字幕生成：

剪映：一键生成，准确率高
Premiere Pro：Adobe Sensei AI自动识别
Arctime：专业字幕软件，支持多语言

字幕优化：

字体选择：
- 中文：思源黑体、阿里巴巴普惠体
- 英文：Helvetica、Arial、Roboto
- 避免使用花哨字体
字幕样式：
- 字号：视频高度的5-8%
- 颜色：白色或黄色，加黑色描边
- 位置：底部居中，距离底边10-15%
断句规则：
- 每行不超过15个字
- 每屏显示时间：1-3秒
- 在标点符号处断句

5.2 背景音乐

版权音乐库：

免费：YouTube Audio Library、Free Music Archive
付费：Epidemic Sound、Artlist、AudioJungle
国内：爱给网、淘声网

音乐选择原则：

情绪匹配：音乐情绪与画面一致
节奏匹配：音乐节奏与剪辑节奏同步
音量控制：背景音乐音量应比配音低10-15dB

音乐剪辑技巧：

淡入淡出：避免突兀的开始和结束
节拍对齐：在音乐的重拍处切换镜头
情绪转折：在音乐的高潮处安排关键画面

5.3 音效处理

常用音效类型：

环境音：
- 室外：鸟鸣、风声、车流
- 室内：脚步声、开关门、键盘声
特效音：
- 转场音效：whoosh、swoosh
- 强调音效：ding、pop
- 动作音效：punch、crash

音效资源：

Freesound.org：免费音效库
Zapsplat：免费+付费
Soundly：专业音效管理工具

5.4 输出设置

推荐导出参数：

平台	分辨率	帧率	码率	格式
YouTube	1920×1080	30fps	8-12 Mbps	MP4 (H.264)
抖音/快手	1080×1920	30fps	6-10 Mbps	MP4 (H.264)
B站	1920×1080	60fps	10-15 Mbps	MP4 (H.264)
微信视频号	1080×1920	30fps	5-8 Mbps	MP4 (H.264)

编码设置：

编码器：H.264（兼容性好）或 H.265（文件更小）
配置文件：High Profile
关键帧间隔：2秒（帧率×2）

5.5 版权合规

AI生成内容的版权问题：

图片/视频：
- Midjourney：商业使用需付费订阅
- Stable Diffusion：开源，可商用
- DALL-E：OpenAI拥有版权，但授权用户使用
音乐：
- AI生成音乐（如Suno）：通常可商用
- 版权音乐库：需购买授权
配音：
- AI配音：通常可商用
- 声音克隆：需原声音所有者授权

建议：

在视频描述中注明使用的AI工具
避免生成侵犯他人版权的内容
商业使用前仔细阅读各工具的服务条款

实战案例：制作一个樱花主题短视频

让我们通过一个完整案例，串联整个流程。

目标

制作一个30秒的樱花主题短视频，用于社交媒体分享。

第一步：内容生成

输入到ChatGPT：

我想制作一个30秒的樱花主题短视频，展现春天的美好和宁静。 请帮我生成详细的分镜脚本和提示词。

ChatGPT输出（简化版）：

【分镜1】（0-5秒）

画面：樱花树全景，粉色花瓣随风飘落
镜头：远景，缓慢推进
提示词：Wide shot of cherry blossom tree in full bloom, pink petals falling gently, soft afternoon sunlight, cinematic, 4k, peaceful atmosphere

【分镜2】（5-10秒）

画面：特写樱花花瓣
镜头：微距特写，浅景深
提示词：Macro close-up of cherry blossom petals, shallow depth of field, soft pink color, dewdrops on petals, bokeh background

【分镜3】（10-20秒）

画面：女孩在樱花树下看书
镜头：中景，侧面角度
提示词：18-year-old Asian girl reading book under cherry blossom tree, white dress, peaceful expression, soft lighting, cinematic composition

【分镜4】（20-25秒）

画面：花瓣飘落的慢动作
镜头：特写，慢动作
提示词：Slow motion cherry blossom petals falling, soft focus, dreamy atmosphere, golden hour lighting

【分镜5】（25-30秒）

画面：女孩抬头微笑
镜头：特写，正面
提示词：Close-up of girl’s face looking up and smiling, cherry blossoms in background, warm lighting, gentle expression

第二步：画面生成

使用Midjourney生成关键帧：

分镜1提示词：

/imagine Wide shot of cherry blossom tree in full bloom, pink petals falling gently, soft afternoon sunlight, cinematic, 4k, peaceful atmosphere --ar 16:9 --v 6

分镜2提示词：

/imagine Macro close-up of cherry blossom petals, shallow depth of field, soft pink color...

AI视频制作完整流程指南

优质文章学习记录

引言：AI视频制作的革命

第一步：内容生成 - 让AI理解你的创意

为什么内容生成是第一步？

大模型能为你做什么？

实战示例：从简单到详细

推荐的大语言模型