1. 项目背景
目前游戏项目中出现美术产能不足的瓶颈,如果使用 Midjourney 之类的第三方生成式人工智能产品生成美术素材的话,一方面需要将我们的美术资产投喂给第三方企业进行风格训练,有安全性上的风险,另一方面,第三方平台生成的素材结合了其他数据集,生成的资产在版权问题上有很多不可控因素。本篇文档介绍一种可以保证版权归属于我们的风格迁移方案。它是基于 Stable Diffusion 技术进行实现的。
2. Stable Diffusion 介绍
Stable Diffusion 是 2022 年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产生图生图的翻译。它是一种潜在扩散模型,由慕尼黑大学的 CompVis 研究团体开发的各种生成性人工神经网络。它是一种开源的算法,且有现成的代码仓库可以调用。
3. 利用 Stable Diffusion 进行风格迁移
目前,训练 Stable Diffusion 模型的方法主要有四种,它们分别是:Dreambooth、Textual Inversion、LoRA 和 Hypernetworks。DreamBooth 是谷歌推出的一个主题驱动的 AI 生成模型,它可以微调文本到图像扩散模型或新图像的结果。DreamBooth 具备个性化结果的能力。只要有少量图片作为输入(通常 3-5 张),Dreambooth 就可以在调整后的 Imagen 和其他一些扩散模型的帮助下,生成具有不同背景的基于主题的个性化图像。一旦有图片输入,调整后的 Imagen 和其他扩散模型就找到唯一标识符,并将其与主题联系起来。在推理时,唯一标识符被用于合成不同上下文中的主题。
3.1 训练集
我们可以用特定风格的美术图片作为训练集,训练生成特定艺术风格的模型,例如我们使用《明星志愿 1》的人物立绘素材做训练集,训练了一个名为 star1 的模型,专门用来生成上世纪 90 年代 DOS 游戏风格的图片。我们仅使用了 27 张图片作为训练集。
3.2 用图片生成器 + prompt 生成图片(txt2img)
用 Stable Diffusion 训练好的图片生成器 + 我们生成的 star1 模型 + prompt,就可以通过文本生成特定风格的人物立绘。例如下面三张图片,我们采用的 positive prompt 和 negative prompt 分别是:
Positive Prompt:
((star1)), a handsome 20 year old man, solo, look at viewer, portait, simple background, transparent background
Negative Prompt:
(watermark),sketch, duplicate, ugly, ((text)), ((logo)), monochrome, worst face, (bad and mutated hands:1.3), (worst quality:2.0), (low quality:2.0), (blurry:2.0), horror, geometry, (bad hands), (missing fingers), multiple limbs, bad anatomy, (interlocked fingers:1.2), Ugly Fingers, (extra digit and hands and fingers and legs and arms:1.4), crown braid, ((2girl)), (deformed fingers:1.2), (long fingers:1.2),(bad-artist-anime),extra fingers,fewer fingers,hands up,bad hands, bad feet,shoes, stone, ((bad toe))
生成的图片结果是:


