Stable Diffusion 生成 AI 数字人视频教程

基本方法

准备一张照片和一段语音，合成照片和语音，同时让照片中的人物动起来，特别是头、眼睛和嘴。

语音合成

语音合成的方法很多，也比较成熟。可以选择自己方便的工具，直接录音也可以，只要能生成一个语音文件即可。

输入文字，选择播音员，填写验证码，点击转换按钮。

语音合成界面

生成速度较快，可以在左侧试听和下载。

语音试听下载

照片生成

此方法需要使用比较真实的照片，如果太二次元，视频人脸效果会比较差。可以使用真实照片，也可以使用 Stable Diffusion 生成，或使用图生图改造，尽量保持真实。

照片尽量正面，侧脸生成的视频可能出现头和身体拼接不佳的情况，证件照最佳。

演示生成一张真实照片。

（1）生成工具使用 Stable Diffusion WebUI，模型选择 realisticVisionV20，生成的图片看起来比较真实。

SD 生成设置

提示词：best quality, front photo of a young man, chinese, portrait,black t-shirt, short hair, (looking at viewer), Sense of technology, in an office, computers, screen, books, upper body,

反向提示词：easy_negative, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

（2）采样器选择 DPM++ 2M SDE Karras，选择别的也没问题，只要生成一张人物照片即可。

采样步数根据采样器选择，这里是 40，建议 20-40，以实际出图效果为准。

尺寸选择竖版，放到手机里比较合适。

生成次数：建议先把提示词写好了，然后一次多生成几张，从中选择最好的，节省时间。

SD 参数设置