1. AI 绘画的'寒武纪大爆发':从 DALL·E 到 Stable Diffusion 的演进之路
2022 年,AI 绘画领域经历了显著的技术突破,DALL·E 2 和 Stable Diffusion 的问世彻底改变了行业格局。这股热潮背后是两条清晰的技术发展脉络:一是以 OpenAI 为代表的 DALL·E 系列,采取闭源精品路线;二是以 Stability AI 为首的 Stable Diffusion 家族,坚持开源策略并催生丰富生态。
2. DALL·E 系列:OpenAI 的'精雕细琢'之路
OpenAI 的 DALL·E 系列可以看作是 AI 绘画领域的'贵族',它走的是一条追求极致效果、但相对封闭的研发路径。它的每一次迭代,都精准地戳中了当时文生图模型的痛点。
2.1 DALL·E:开创性的'文本到图像'尝试
DALL·E 于 2021 年初推出,采用两阶段模型设计。第一阶段使用 VQ-VAE 将 256x256 图片压缩为 32x32 的码本(codebook),类似于将高清图像抽象为色块索引。第二阶段将文本编码与图像色块索引拼接,输入类似 GPT 的自回归模型进行学习。推理时,输入文字后模型逐层预测色块并还原图像。早期 DALL·E 具备较强的概念组合能力,如生成'意大利面刺猬',但存在分辨率低、细节不足及复杂文本理解偏差等问题。尽管如此,它验证了大规模文本 - 图像对训练模型的可行性。
2.2 DALL·E 2:引入 CLIP,打通文本与图像的语义桥梁
DALL·E 2 引入了 CLIP 和 GLIDE 模块进行技术整合。CLIP 作为跨模态模型,通过海量图文对训练判断文字与图像的语义匹配度。训练分为两步:首先训练先验模型(Prior),根据 CLIP 编码的文本特征预测对应的图像特征;随后使用扩散模型 GLIDE 作为解码器,将图像特征还原为像素图片。该架构使得生成图片的语义与文本高度绑定,且画面质量因扩散模型引入而显著提升。DALL·E 2 在艺术感和合理性上达到新高,但在复杂空间关系处理和精确文字生成方面仍存在局限。

