1. AI 绘画的'寒武纪大爆发':从 DALL·E 到 Stable Diffusion 的演进之路
2022 年之前,普通人通过文字生成媲美专业画师的作品被视为科幻故事。然而那一年,AI 绘画领域迎来爆发,DALL·E 2 和 Stable Diffusion 的问世彻底改变了行业规则。这股热潮背后是两条技术发展脉络:一是以 OpenAI 为代表的 DALL·E 系列,采取闭源精品路线;二是以 Stability AI 为首的 Stable Diffusion 家族,坚持开源生态。本文旨在梳理这两大流派的技术演进逻辑,帮助读者理解其核心优势及应用方法。
2. DALL·E 系列:OpenAI 的'精雕细琢'之路
OpenAI 的 DALL·E 系列可以看作是 AI 绘画领域的'贵族',它走的是一条追求极致效果、但相对封闭的研发路径。它的每一次迭代,都精准地戳中了当时文生图模型的痛点。
2.1 DALL·E:开创性的'文本到图像'尝试
最初的 DALL·E 在 2021 年初亮相时,就已经足够震撼。它本质上是一个两阶段的模型,这个设计思路非常巧妙。第一阶段,它用一个叫做 VQ-VAE 的模型,把一张 256x256 的图片压缩成一个 32x32 的'密码本'(codebook)。你可以把这个过程想象成把一幅高清油画,用马赛克的方式抽象成一小片一小片的色块索引。第二阶段,它把描述图片的文字(经过编码)和这些图片'色块索引'拼接在一起,喂给一个类似 GPT 的自回归模型去学习。推理的时候,你输入一段文字,模型就能像续写故事一样,一个接一个地'预测'出这些色块,最终还原成图像。
早期 DALL·E 实测显示,其想象力天马行空,能把完全不相干的概念组合起来,比如'一个用意大利面条做成的刺猬'。但问题也很明显:分辨率不高,细节经不起推敲,而且对复杂文本的理解经常跑偏。这就像是有一个充满创意的孩子,但手上的画笔还不够精细。不过,它最重要的贡献是证明了'用大规模文本 - 图像对训练模型'这条路是通的,为后续发展铺平了道路。
2.2 DALL·E 2:引入 CLIP,打通文本与图像的语义桥梁
到了 DALL·E 2,OpenAI 做了一次漂亮的'技术整合'。它核心用到了两个已经验证成功的模块:CLIP和GLIDE(一个基于扩散模型的生成器)。CLIP 这个模型特别有意思,它就像是一个跨模态的'裁判',通过海量图文对训练,学会了判断一段文字和一张图片在语义上是否匹配。DALL·E 2 的训练也分两步走:第一步,训练一个'先验模型'(Prior),它的任务是根据 CLIP 编码出的文本特征,去预测出对应的、CLIP 编码出的图像特征。第二步,再用一个扩散模型(GLIDE)作为'解码器',把预测出的图像特征还原成真实的像素图片。
打个比方。CLIP 就像是一位精通多国语言和艺术鉴赏的专家,它能看懂你的文字描述(文本特征),也能品评一幅画作的意境(图像特征)。DALL·E 2 的训练,就是先教一个学生(Prior)根据专家的文字点评,去模仿专家会如何点评一幅画(预测图像特征)。然后,再请一位技艺高超的画师(GLIDE 解码器),根据这个'模仿出来的点评',把画作本身给画出来。这样做的好处是,生成图片的语义和文本的绑定非常紧密,画面质量也因扩散模型的引入而大幅提升。DALL·E 2 生成的图片在艺术感和合理性上达到了新的高度,但它在处理复杂空间关系、生成精确文字等方面仍有不足。

