多模态模型 Transfusion 与 Show-o 深度解析
近期,Meta 发布了 Transfusion,Show Lab 与字节跳动联合发布了 Show-o。这两项工作均宣称实现了利用单一 Transformer 架构同时处理文本和图像任务,无需借助额外的文本编码器即可实现图像生成,并融合了自回归生成与扩散模型的技术优势。本文旨在深入分析这两篇论文的核心架构、技术差异及实验结果。
读前准备
在深入阅读这两篇新工作之前,建议读者熟悉以下基础概念:
- 自回归生成(Autoregressive Generation):以 Transformer 为代表,按顺序逐个生成序列元素。
- 扩散模型(Diffusion Models):包括 DDPM、LDM、DiT 等,通过逐步去噪生成数据。
- 掩码自回归模型(Masked Autoregressive Models):如 MaskGIT、MAR,通过随机掩码并行生成多个元素。
- Chameleon 模型:此前较为先进的混合模态早期融合基础模型,是这两篇工作的主要对比对象。
本文不会对这些旧概念做深入回顾,若遇到不懂的术语,请先查阅相关论文。
自回归模型基础
自回归模型用于生成有序序列。算法会参考之前所有已生成的信息来预测下一个元素。例如在文本生成中,给定前一个词元,预测下一个词元。训练时通常假设元素取值有限(如字母表),使用交叉熵损失函数优化下一个词元预测(Next Token Prediction, NTP)任务。
对于图像数据,像素或图块(Patch)需要被定义先后顺序。传统方式采用从左到右、从上到下的扫描线顺序,但这并非最优解。
掩码自回归模型
为了解决逐像素生成的速度慢及顺序不合理的问题,研究者提出了掩码自回归模型。其核心改进在于:
- 并行生成:每轮生成可以覆盖多个像素(图块)。
- 随机顺序:像素的生成顺序完全随机,而非固定扫描顺序。
这种方式要求模型一次性接收所有像素输入,并通过掩码剔除未使用的部分,因此被称为掩码自回归。这种机制允许图像词元之间进行双向交叉注意力计算,而无需像文本那样严格遵循因果顺序。
扩散模型基础
扩散模型将图像生成建模为从噪声图像逐步恢复至目标图像的过程。为了降低计算量,通常先使用自编码器将图像压缩为潜在空间表示(Latent Space),再进行扩散过程。这一过程类似于 NLP 中的词元化(Tokenize),在图像领域常被称为图块化(Patchify)或图像词元化。
值得注意的是,掩码自回归模型有时被称为'离散扩散模型',因为它也是从纯掩码状态逐渐变为有意义图像。尽管命名上有重叠,但在实现细节上,两者仍存在显著差异。
Chameleon 模型回顾
Chameleon 代表了此前多模态模型的先进水平。它在语言模型基础上,使用离散自编码器(如 VQGAN)作为图像词元化工具。编码后的图像词元与文本词元混合,统一通过标准 Transformer 的下一个词元预测任务进行训练。生成时,多模态模型自回归地生成所有词元,随后分别解码回文本和图像。
这种架构的主要问题在于未能充分设计图像词元的生成逻辑,本质上仍是强行将图像视为离散词元处理,限制了图像生成的质量与灵活性。
功能与效果对比
明确两个模型的任务能力是理解其设计的关键。
Transfusion 能力
Transfusion 是一个标准的多模态模型,即输入输出可包含图像词元的语言模型。它支持输入已知文本和图像,输出后续文本和图像。基于此架构,它可以执行文生图任务。该模型未为特定任务设置特殊词元,所有图像功能依赖文本指令指定。因此,若要执行图像编辑任务,需在带文本标注的图像编辑数据集上进行微调。研究表明,仅需约 8000 条数据微调即可赋予模型一定的编辑能力。
Show-o 能力
相比之下,Show-o 允许在序列前输入区分任务的特殊词元。这使得 Show-o 能够完成多模态理解(MMU)、文生图(T2I)、图像编辑及多模态生成等多种任务。Show-o 的基础模型默认已在带有文本提示的图像编辑数据集上微调,因此开箱即用。
方法详解
现有架构的局限
传统的多模态模型往往只是将图像强行转换为离散词元,再套用标准自回归框架。虽然部分模型尝试引入扩散模型辅助解码(如 LaVIT),但核心的图像词元生成仍依赖标准自回归,导致效率和质量受限。


