【保姆级教程】AI图生图+视频生成完整工作流(附提示词+参数表)

【保姆级教程】AI图生图+视频生成完整工作流(附提示词+参数表)

【保姆级教程】AI图生图+视频生成完整工作流(附提示词+参数表)

目录


一、前言

最近AI视频生成技术火得一塌糊涂,从Runway Gen-2到Stable Diffusion的AnimateDiff插件,静态图片“动起来”已经不再是难题。但很多初学者在实操时会遇到各种坑:视频闪烁、人物变形、运动不自然……

本文将以Stable Diffusion WebUI + AnimateDiff为主线,详细拆解从图生图(优化图片)图生视频的全流程操作,并附上可直接复制的提示词和参数表。无论你是刚入门的小白,还是想提升效率的老手,这篇教程都能帮你快速上手。


二、环境搭建与工具选择

2.1 硬件要求

  • 显卡:NVIDIA显卡,显存建议8GB以上(6GB也可运行,但帧数需调低)
  • 内存:16GB+
  • 系统:Windows 10/11(Linux也可,本文以Windows为例)

2.2 软件工具

工具说明获取方式
Stable Diffusion WebUI秋叶整合包或官方源码B站秋叶教程 或 GitHub
AnimateDiff 插件视频生成核心插件WebUI扩展中搜索“AnimateDiff”安装
ControlNet 插件可选,用于控制画面一致性WebUI扩展中搜索“ControlNet”安装
Python3.10.x整合包自带

2.3 模型准备

  • 底模:推荐写实风格 majicMIX realistic 或二次元风格 Anything V5(可在Civitai下载)
  • 运动模块:AnimateDiff官方提供的 mm_sd_v15.ckpt(插件会自动下载,或手动放入 models/AnimateDiff

三、第一步:生成高质量基础图片(图生图)

视频的质量很大程度上取决于首帧图片的质量。如果直接用网上随便找的图,很可能因为风格不统一或细节缺失导致生成失败。因此,建议先用图生图(或文生图)生成一张满意的图片作为起点。

3.1 模型选择

  • 写实人像majicMIX realisticChilloutMix
  • 二次元Anything V5Counterfeit
  • 风景/建筑Realistic VisionDreamShaper

3.2 提示词编写

提示词分为正向和负向,建议将关键描述词放在前面,用 (keyword:权重) 加强。

正向提示词示例(古风美女):

(masterpiece, best quality:1.2), 1girl, solo, chinese clothes, hanfu, looking at viewer, standing, garden, flowers, trees, soft lighting, detailed face, highly detailed skin, (wind blowing hair and clothes:1.1) 

负向提示词(通用反咒):

nsfw, bad hands, bad fingers, missing fingers, extra fingers, bad face, bad eyes, bad proportions, ugly, duplicate, morbid, mutilated, tranny, trans, deformed, blurry, low quality, worst quality, signature, watermark, username, artist name 

3.3 参数设置参考

参数推荐值说明
采样器 (Sampler)DPM++ 2M Karras生成质量与速度均衡
步数 (Steps)30太少细节不足,太多变化不大
CFG Scale7提示词相关性,过高色彩过饱和
宽度/高度512x768竖构图更适合短视频,显存友好
种子 (Seed)-1随机生成,可固定种子复现效果

生成满意图片后,保存到本地(建议PNG格式,保留元数据)。


四、第二步:图生视频核心操作

4.1 AnimateDiff插件安装与配置

  1. 在WebUI中点击 “扩展” -> “可用” -> 搜索 AnimateDiff -> 安装。
  2. 重启WebUI后,在文生图/图生图界面下方会出现 AnimateDiff 折叠面板。
  3. 第一次使用时,需要下载运动模块。点击面板中的 “下载运动模块”,选择 mm_sd_v15.ckpt 下载。若下载慢,可手动下载后放入 models/AnimateDiff 文件夹。

4.2 运动参数详解

切换到 图生图 界面,加载刚才生成的图片,展开 AnimateDiff 面板,设置如下:

参数推荐值说明
启用必须勾选
运动模块mm_sd_v15.ckpt已下载的模块
帧数 (Number of frames)16(测试)→ 32(成品)帧数越多视频越长,显存占用越大
帧率 (FPS)8生成时的预览帧率,后期可用软件补帧
上下文批大小 (Context batch size)16同时处理的帧数,越大越稳定,但显存要求高
运动参数 (Motion parameters)见下表控制镜头运动

运动参数详解表:

参数含义推荐范围示例
平移 X (Translation X)水平移动-2 ~ 2X:0 不动,X:1 每秒右移1像素
平移 Y (Translation Y)垂直移动-2 ~ 2Y:0.5 每秒上移0.5像素
旋转 (Rotation)画面旋转-0.5 ~ 0.5通常设为0
缩放 (Scale)镜头推拉0.98 ~ 1.02Scale:1.01 每秒放大1%,Scale:0.99 缩小

示例组合: 缓慢上移 + 轻微放大
Translation X: 0, Translation Y: 0.5, Rotation: 0, Scale: 1.005

注意: 运动幅度不宜过大,否则人物容易变形。新手建议先尝试单一方向微动。

4.3 生成视频与后处理

设置好参数后,点击 “生成”。生成完毕后,在输出图片区域会显示一个GIF预览。点击GIF右下角的文件夹图标,可以找到生成的MP4视频文件(位于 outputs/img2img-images/日期 下)。

如果需要高清视频,可以使用 Topaz Video AI 进行补帧(将8fps提升到24fps)和放大分辨率。


五、实战案例与提示词解析

案例1:写实人像(镜头缓慢上移)

基础图提示词:

正向:(photorealistic:1.3), (masterpiece:1.2), 1girl, detailed face, perfect eyes, soft skin, natural lighting, depth of field, looking at viewer, wearing sweater, indoors, cozy atmosphere 负向:nsfw, bad hands, bad anatomy, ugly, deformed, disfigured, poorly drawn face, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, username, watermark, signature 

运动参数:Translation Y: 0.5, Scale: 1.0

案例2:风景(镜头缓缓拉远)

基础图提示词:

正向:(masterpiece, best quality), landscape, mountains, river, waterfall, forest, autumn colors, sunny day, blue sky, clouds, highly detailed, cinematic lighting, 8k, photorealistic 负向:nsfw, low quality, worst quality, blurry, fog, text, signature, watermark, username, artist name, ugly, deformed, bad anatomy, bad proportions 

运动参数:Translation Y: 0, Scale: 0.99(每秒缩小1%,镜头拉远)


六、常见问题与解决方案(避坑指南)

Q1:生成的视频闪烁严重

原因: 运动幅度过大,或上下文批大小太小。
解决: 降低平移/缩放值,增大上下文批大小至24;开启ControlNet Tile模型(预处理选择tile_resample)可以增强一致性。

Q2:人物五官扭曲/崩坏

原因: 基础图面部细节不足,或运动过程中面部出现错位。
解决:

  • 在负向提示词中强化“bad face, distorted face”。
  • 使用 ADetailer 插件(人脸修复)对每一帧进行后处理。
  • 降低运动幅度,或使用逐帧生成模式(需更高级设置)。

Q3:视频长度太短

原因: 帧数设置太少。
解决: 增加帧数,但注意显存占用。16帧约1秒(8fps),32帧约2秒。可以生成多段后用剪辑软件拼接,或使用 EbSynth 等工具进行关键帧插值。

Q4:显存不足(CUDA out of memory)

原因: 帧数/上下文批大小过大,或分辨率太高。
解决: 降低分辨率(如384x512),减少帧数,减小上下文批大小,关闭其他占用显存的应用。


七、资源下载

为了方便大家直接上手,我将常用的模型配置文件、提示词模板、参数预设整理到了飞书文档中,需要的自取(链接永久有效):

👉 AI图生图生视频完整资料库(含提示词)

文档内容包括:

  • 实战提示词
  • 常见参数设置对照表(Excel格式)
  • 运动参数预设文件

文档部分内容展示

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

八、结语

AI视频生成技术日新月异,但万变不离其宗:高质量的基础图片 + 合理的运动参数 = 流畅的视频。希望这篇教程能帮助你打开AI视频/图片创作的大门。

如果觉得本文对你有帮助,欢迎点赞、收藏、评论,让更多需要的人看到。有问题可以在评论区留言,我会尽力解答。后续还会更新更多AIGC实战技巧,点个关注不迷路!


版权声明:转载请附上原文出处链接和本声明。

Read more

【AI大模型前沿】XVERSE-Ent:元象开源的泛娱乐中英双语底座大模型

【AI大模型前沿】XVERSE-Ent:元象开源的泛娱乐中英双语底座大模型

系列篇章💥 No.文章1【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术2【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源5【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型6【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题7【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破8【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元9【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型10【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合11【AI大模型前沿】Qwen2.5-Omni:

刚刚,阿里悄悄发布了他们全新 AI IDE,名字叫Qoder(谐音Coder)

大家好,我是泽安!见字如面~ AI 编程赛道又起浪。 腾讯有CodeBuddy,字节有Trae,百度推出了文心快码,阿里这边也一直有Lingma IDE坐镇,而现在,又一条新动态浮出水面:阿里刚刚悄悄的推出了Qoder。从公开页面来看,它支持 Windows 和 macOS,目前正处于“免费公开预览”阶段。 Qoder 发布即免费,没有恶意营销,甚至很多人都不知道,这点比那些各种要邀请码的强多了! 它支持中文,支持Google邮箱和GitHub登录,支持MCP和记忆 几点介绍: Qoder 是什么?【官方解释】 Qoder (/ˈkoʊdər/) 是一个专为实际软件开发而设计的代理编码平台。它将增强型上下文工程与智能代理无缝集成,以全面理解您的代码库并系统地处理软件开发任务。 它超越了简单的代码完成 - Qoder 通过自动化复杂的工作流程、维护项目上下文和实现无缝的 AI 辅助开发,帮助您更深入地思考、更智能地编码和更好地构建。 第一:让不可见变可见,关于知识与执行的透明度

用ToClaw打造AI自动助手:重复任务一键托管,告别加班(附实操场景)

用ToClaw打造AI自动助手:重复任务一键托管,告别加班(附实操场景)

前言 每天打开电脑,其实都会做很多重复性的事情:清理桌面、查看信息、整理文件、检查任务状态……这些事情单独看都不复杂,但它们每天都在发生,而且一套流程下来就要花掉不少时间。 更关键的是,这些工作大多不需要动脑,属于典型的机械重复,但你又必须亲自去完成。时间久了,就会陷入一种很典型的状态——事情不难,但很耗时间;可以不做,但又不能不做。 这就是很多人都会遇到的“重复任务困境”。 而这类问题, ToClaw 能帮你完美解决。ToClaw 是 ToDesk 推出的桌面AI助手,不只是一个聊天工具,而是一个可以真正帮你“执行任务”的助手。通过自然语言,你可以直接让它帮你处理文件、分析信息、执行操作,甚至自动完成一整套流程。 在这篇文章里,我会用几个实际场景,来展示我是如何用 ToClaw 搭建一个“自动干活助手”的,把那些每天都要做的重复任务交给 AI,而我只需要关注最终结果。 一、ToClaw

【脉脉】AI创作者崛起:掌握核心工具,在AMA互动中共同成长

【脉脉】AI创作者崛起:掌握核心工具,在AMA互动中共同成长

🎬 个人主页:艾莉丝努力练剑 ❄专栏传送门:《C语言》《数据结构与算法》《C/C++干货分享&学习过程记录》 《Linux操作系统编程详解》《笔试/面试常见算法:从基础到进阶》《Python干货分享》 ⭐️为天地立心,为生民立命,为往圣继绝学,为万世开太平 🎬 艾莉丝的简介: 文章目录 * 脉脉AI创作者AMA:一场技术人的认知加速器 * 一、脉脉带来的认知重构:重新定义AI创作者 * 1.1 AI创作者的本质:不是"用AI创作的人",而是"用AI思考的人" * 1.2 AI创作的能力边界:赋能而非替代 * 二、工具解构:AI创作技术如何重构工作流 * 2.1 核心工具矩阵与应用场景 * 2.2 效率革命: