DeepSeek 开源 Janus-Pro 统一多模态模型，7B 版本性能显著增强

DeepSeek 开源 Janus-Pro 统一多模态模型

继 DeepSeek R1 之后，DeepSeek 正式开源下一代统一多模态模型 Janus-Pro。该系列包含两个尺寸：Janus-Pro-1B 和 Janus-Pro-7B。Janus-Pro 在架构、训练策略及数据规模上进行了全面升级，在多模态理解和文本到图像生成能力方面取得了显著进步。

性能表现

Janus-Pro 超越了以往的多模态统一模型，其性能与特定任务的专用模型相匹配甚至超越。在多项基准测试中，包括 Meta、Google、OpenAI 及 Stability AI 等厂商的模型对比中，Janus-Pro 展现了强大的竞争力。

Janus-Pro 性能对比图

在理解（Und.）和生成（Gen.）任务上，Janus-Pro 均表现出色。使用外部预训练扩散模型的模型用†标记，Janus-Pro 无需依赖此类外部模型即可达到同等效果。

Janus-Pro 理解与生成能力

架构设计

Janus-Pro 的核心设计原则是解耦多模态理解和生成的视觉编码。它采用独立的编码方法将原始输入转换为特征，随后由统一的自回归 Transformer 进行处理。

多模态理解：使用 SigLIP-L 编码器从图像中提取高维语义特征。
视觉生成：使用 VQ tokenizer 将图像转换为离散 ID。

这些特征序列被拼接后输入到 LLM 中进行处理，实现了理解与生成的统一架构。

Janus-Pro 架构图

优化的训练策略

Janus-Pro 对原有的三阶段训练过程进行了深度优化，以提升训练效率和最终性能：

第一阶段：增加训练步骤，充分训练 ImageNet 数据集。即使 LLM 参数固定，模型也能有效建模像素依赖并生成合理图像，为后续生成任务打下基础。
第二阶段：放弃 ImageNet 数据，直接使用正常的文本到图像数据训练模型生成图像。这一调整提高了训练效率，并直接提升了整体生成性能。
第三阶段：调整数据比例，减少文本到图像数据的比例。此举旨在维持强大的视觉生成能力的同时，显著提高多模态理解性能，实现两者的平衡。

数据扩展

为了进一步提升模型能力，Janus-Pro 在多模态理解和视觉生成方面大幅扩展了训练数据：

多模态理解：增加了约 9000 万样本，涵盖图像字幕数据集以及表格、图表、文档理解数据。这增强了模型对复杂视觉信息的解析能力。
视觉生成：增加了约 7200 万合成美学数据样本，使真实数据与合成数据的比例达到 1:1。这不仅提高了模型的收敛速度，还显著改善了输出图像的美学质量。

模型扩展

Janus-Pro 将模型规模从 1.5B 扩展到 7B。实验表明，使用更大规模的 LLM 时，多模态理解和视觉生成的损失收敛速度显著提高，验证了该方法的强可扩展性。更大的参数量使得模型能够捕捉更复杂的语义关系和生成细节。

DeepSeek 开源 Janus-Pro 统一多模态模型，7B 版本性能显著增强