智源研究院开源中英双语 AltDiffusion 模型
背景与行业痛点
在 AIGC(人工智能生成内容)技术飞速发展的当下,中文世界的创作者面临着诸多挑战。传统的文生图模型大多基于英文语料训练,导致中文用户在使用时存在以下显著痛点:
- Prompt 表达困难:需要绞尽脑汁构思英文提示词,翻译软件往往词不达意,难以精准传达创作意图。
- 文化理解偏差:精细构思的中文 Prompt 在画面生成中难以体现,常出现'中国风'被误解为'日本风'等情况,甚至因文化误解而产生跑题。
- 长文本支持不足:复杂的场景描述在生成过程中容易丢失细节,无法支撑精细化的艺术创作需求。
- 生态工具割裂:许多专业级工具链对中文支持不佳,增加了使用门槛。
针对这些问题,智源研究院大模型研究团队开源了最新的双语 AltDiffusion 模型,为中文世界带来了专业级 AI 文图创作的强劲动力。该模型支持精细长中文 Prompts 高级创作,无需文化转译,从原汁原味中国话直达形神兼备中国画,且在绘画水平上达到低门槛中英对齐原版 Stable Diffusion 级震撼视效。
核心架构:AltDiffusion 与 AltCLIP
AltDiffusion 的核心基石是创新模型 AltCLIP。该模型旨在补齐原 CLIP 模型在跨语言处理上的三大关键能力:语言理解、图文对齐和跨语言能力。
1. 长 Prompt 精细绘画
Prompt 的长度是检验模型文图生成能力的重要分水岭。AltDiffusion 在处理长中文 Prompt 时表现优异,能够准确理解丰富的元素构成和细腻的细节描摹,画面效果不逊色于英文输入。在同样的中英文长 Prompt 输入调校下,AltDiffusion 在不少图片生成案例中表现力甚至更胜一筹,元素构成丰富精彩、细节描摹细腻精准。
2. 原生中国风理解
AltDiffusion 利用中文图文对继续微调,使其更懂中国文化语境。例如,在描绘'唐朝盛景'时,能避免文化误解;在涉及唐装人物时,能精准区分中式风格而非日式风格。对于带有'古建筑'等概念的 Prompt,默认生成中国古代建筑,贴合中文创作者身份。这种对原生于中国文化的概念,理解与表现更为精确,得以避免'日本风'与'中国风'混淆的状况。
3. 中英双语对齐
基于 Stable Diffusion 架构,AltDiffusion 将原有的 CLIP 替换为 AltCLIP,并使用中英文图文对进行进一步训练。得益于强大的语言对齐能力,其中英文生成效果高度一致。例如,'戴帽子小狗'的中英文 Prompt 输入后,生成画面基本对齐,一致性极高。在对'男孩'的画面增加描述词为'中国男孩'之后,在原小男孩形象基础上,精准调整成典型'中国'孩子,展现出极佳的语言理解能力和精准的生成表达结果。
技术架构详解
AltCLIP 以创新性换塔思路,全面增强了跨语言的三大能力。与原 CLIP 相比,它在多项数据集上取得了中文更优的效果。这种对齐方法大大降低了训练多语言多模态表征模型的门槛。相对于重新去做中文或者英文的图文对预训练,只需约 1% 的计算资源与图文对数据。
在基准测试中,AltCLIP 在全面 CLIP benchmark 中取得了和英文原版一致的效果,在一些检索类数据集如 Flickr-30K 上超过了原版 CLIP,并在中文 ImageNet 上取得了 zero-shot 结果最优的表现。这证明了其在跨语言检索和分类任务上的鲁棒性。
生态兼容性与工具链
AltDiffusion 打通了 Stable Diffusion 的原生态,这意味着所有支持 Stable Diffusion 的工具均可应用在该模型上,为中文 AI 创作提供了丰富选择。
Stable Diffusion WebUI
这是一个优秀的文图生成和编辑网页工具。用户可以将 AltDiffusion 模型加载到 SD WebUI 中,实现中文 Prompt 的直接控制。例如,通过简单的 Prompt 输入即可呈现特定的魔法世界或国风场景。其可玩性极佳,适合快速原型设计。
DreamBooth
DreamBooth 是一种通过少量样本对模型进行调试以生成特定风格的工具。在 AltDiffusion 上,用户可以利用少量中文图片生成特定风格,如'大闹天宫'风格,极大地丰富了创作可能性。这对于需要定制化 IP 形象的创作者尤为重要。
社区 Prompts Book
社区用户积累的大量 Prompts 经验几乎全部适用于 AltDiffusion。用户可以通过混合中英文方式搭配神奇的风格和元素,挖掘更多适用场景。此外,还可以通过混合中英文方式去搭配一些神奇的风格和元素,或继续挖掘对 AltDiffusion 适用的中文 Prompts。


