DeepSeek 开源 Janus-Pro 统一多模态模型
继 DeepSeek R1 之后,DeepSeek 正式开源下一代统一多模态模型 Janus-Pro。该系列包含两个尺寸:Janus-Pro-1B 和 Janus-Pro-7B。Janus-Pro 在架构、训练策略及数据规模上进行了全面升级,在多模态理解和文本到图像生成能力方面取得了显著进步。
性能表现
Janus-Pro 超越了以往的多模态统一模型,其性能与特定任务的专用模型相匹配甚至超越。在多项基准测试中,包括 Meta、Google、OpenAI 及 Stability AI 等厂商的模型对比中,Janus-Pro 展现了强大的竞争力。

在理解(Und.)和生成(Gen.)任务上,Janus-Pro 均表现出色。使用外部预训练扩散模型的模型用†标记,Janus-Pro 无需依赖此类外部模型即可达到同等效果。

架构设计
Janus-Pro 的核心设计原则是解耦多模态理解和生成的视觉编码。它采用独立的编码方法将原始输入转换为特征,随后由统一的自回归 Transformer 进行处理。
- 多模态理解:使用 SigLIP-L 编码器从图像中提取高维语义特征。
- 视觉生成:使用 VQ tokenizer 将图像转换为离散 ID。
这些特征序列被拼接后输入到 LLM 中进行处理,实现了理解与生成的统一架构。

优化的训练策略
Janus-Pro 对原有的三阶段训练过程进行了深度优化,以提升训练效率和最终性能:
- 第一阶段:增加训练步骤,充分训练 ImageNet 数据集。即使 LLM 参数固定,模型也能有效建模像素依赖并生成合理图像,为后续生成任务打下基础。
- 第二阶段:放弃 ImageNet 数据,直接使用正常的文本到图像数据训练模型生成图像。这一调整提高了训练效率,并直接提升了整体生成性能。
- 第三阶段:调整数据比例,减少文本到图像数据的比例。此举旨在维持强大的视觉生成能力的同时,显著提高多模态理解性能,实现两者的平衡。
数据扩展
为了进一步提升模型能力,Janus-Pro 在多模态理解和视觉生成方面大幅扩展了训练数据:
- 多模态理解:增加了约 9000 万样本,涵盖图像字幕数据集以及表格、图表、文档理解数据。这增强了模型对复杂视觉信息的解析能力。
- 视觉生成:增加了约 7200 万合成美学数据样本,使真实数据与合成数据的比例达到 1:1。这不仅提高了模型的收敛速度,还显著改善了输出图像的美学质量。
模型扩展
Janus-Pro 将模型规模从 1.5B 扩展到 7B。实验表明,使用更大规模的 LLM 时,多模态理解和视觉生成的损失收敛速度显著提高,验证了该方法的强可扩展性。更大的参数量使得模型能够捕捉更复杂的语义关系和生成细节。


