多模态模型 Transfusion 与 Show-o 解析：Transformer 结合扩散与自回归生成

综述由AI生成对比分析了 Meta 的 Transfusion 与 Show Lab 的 Show-o 两款多模态模型。两者均利用单一 Transformer 结合自回归与扩散/掩码自回归技术处理图文。Transfusion 激进引入完整扩散模型，图像质量更高但资源消耗大；Show-o 采用掩码自回归，数据效率高但图像质量略逊。文章详细阐述了两者在架构设计、注意力机制及任务处理上的异同，指出图像连续性保护的重要性，并探讨了多模态模型未来的技术趋势与挑战。

CodeArtist发布于 2025/2/7更新于 2026/6/327 浏览

多模态模型 Transfusion 与 Show-o 深度解析

近期，Meta 发布了 Transfusion，Show Lab 与字节跳动联合发布了 Show-o。这两项工作均宣称实现了利用单一 Transformer 架构同时处理文本和图像任务，无需借助额外的文本编码器即可实现图像生成，并融合了自回归生成与扩散模型的技术优势。本文旨在深入分析这两篇论文的核心架构、技术差异及实验结果。

读前准备

在深入阅读这两篇新工作之前，建议读者熟悉以下基础概念：

自回归生成（Autoregressive Generation）：以 Transformer 为代表，按顺序逐个生成序列元素。
扩散模型（Diffusion Models）：包括 DDPM、LDM、DiT 等，通过逐步去噪生成数据。
掩码自回归模型（Masked Autoregressive Models）：如 MaskGIT、MAR，通过随机掩码并行生成多个元素。
Chameleon 模型：此前较为先进的混合模态早期融合基础模型，是这两篇工作的主要对比对象。

本文不会对这些旧概念做深入回顾，若遇到不懂的术语，请先查阅相关论文。

自回归模型基础

自回归模型用于生成有序序列。算法会参考之前所有已生成的信息来预测下一个元素。例如在文本生成中，给定前一个词元，预测下一个词元。训练时通常假设元素取值有限（如字母表），使用交叉熵损失函数优化下一个词元预测（Next Token Prediction, NTP）任务。

对于图像数据，像素或图块（Patch）需要被定义先后顺序。传统方式采用从左到右、从上到下的扫描线顺序，但这并非最优解。

掩码自回归模型

为了解决逐像素生成的速度慢及顺序不合理的问题，研究者提出了掩码自回归模型。其核心改进在于：

并行生成：每轮生成可以覆盖多个像素（图块）。
随机顺序：像素的生成顺序完全随机，而非固定扫描顺序。

这种方式要求模型一次性接收所有像素输入，并通过掩码剔除未使用的部分，因此被称为掩码自回归。这种机制允许图像词元之间进行双向交叉注意力计算，而无需像文本那样严格遵循因果顺序。

扩散模型基础

扩散模型将图像生成建模为从噪声图像逐步恢复至目标图像的过程。为了降低计算量，通常先使用自编码器将图像压缩为潜在空间表示（Latent Space），再进行扩散过程。这一过程类似于 NLP 中的词元化（Tokenize），在图像领域常被称为图块化（Patchify）或图像词元化。

值得注意的是，掩码自回归模型有时被称为'离散扩散模型'，因为它也是从纯掩码状态逐渐变为有意义图像。尽管命名上有重叠，但在实现细节上，两者仍存在显著差异。

Chameleon 模型回顾

Chameleon 代表了此前多模态模型的先进水平。它在语言模型基础上，使用离散自编码器（如 VQGAN）作为图像词元化工具。编码后的图像词元与文本词元混合，统一通过标准 Transformer 的下一个词元预测任务进行训练。生成时，多模态模型自回归地生成所有词元，随后分别解码回文本和图像。

这种架构的主要问题在于未能充分设计图像词元的生成逻辑，本质上仍是强行将图像视为离散词元处理，限制了图像生成的质量与灵活性。

功能与效果对比

明确两个模型的任务能力是理解其设计的关键。

Transfusion 能力

Transfusion 是一个标准的多模态模型，即输入输出可包含图像词元的语言模型。它支持输入已知文本和图像，输出后续文本和图像。基于此架构，它可以执行文生图任务。该模型未为特定任务设置特殊词元，所有图像功能依赖文本指令指定。因此，若要执行图像编辑任务，需在带文本标注的图像编辑数据集上进行微调。研究表明，仅需约 8000 条数据微调即可赋予模型一定的编辑能力。

Show-o 能力

相比之下，Show-o 允许在序列前输入区分任务的特殊词元。这使得 Show-o 能够完成多模态理解（MMU）、文生图（T2I）、图像编辑及多模态生成等多种任务。Show-o 的基础模型默认已在带有文本提示的图像编辑数据集上微调，因此开箱即用。

方法详解

现有架构的局限

传统的多模态模型往往只是将图像强行转换为离散词元，再套用标准自回归框架。虽然部分模型尝试引入扩散模型辅助解码（如 LaVIT），但核心的图像词元生成仍依赖标准自回归，导致效率和质量受限。

多模态模型 Transfusion 与 Show-o 解析：Transformer 结合扩散与自回归生成

多模态模型 Transfusion 与 Show-o 深度解析