13 个 SOTA 多模态大模型开源汇总（含论文与代码）

近年来，多模态大模型（Multimodal Large Language Models, MLLMs）在人工智能领域取得了显著的进展，特别是在自然语言处理、计算机视觉和多模态理解方面。这些模型能够理解和生成多种类型的数据，如文本、图像、音频和视频，为多模态学习和应用提供了强大的工具。

架构和创新

1. NExT-GPT: Any-to-Any Multimodal LLM（ICLR 2024）

简述： 本文提出了通用任意对任意 MM-LLM 系统 NExT-GPT，该系统将 LLM 与多模态适配器和不同解码器连接，使 NExT-GPT 能感知输入并以任意组合生成文本、图像、视频和音频输出。利用现有高性能编码器和解码器，NExT-GPT 仅需少量参数（1%）进行调优，有利于低成本训练和扩展。此外，研究人员引入模态切换指令调优（MosIT），并整理高质量数据集，使 NExT-GPT 具备复杂跨模态语义理解和内容生成能力。

2. DreamLLM: Synergistic Multimodal Comprehension and Creation（ICLR 2024）

简述： 本文提出了 DreamLLM，这是一个学习框架，它首先实现了多功能多模态大型语言模型（MLLM），该模型强调了多模态理解和创作之间的协同作用。DreamLLM 通过直接在原始多模态空间中采样来生成语言和图像，避免了外部特征提取器的局限性。此外，它能够生成原始交错文档，包括文本、图像和非结构化布局。DreamLLM 是首个能生成自由格式交错内容的 MLLM，实验证明，它作为零样本多模态通才表现出色，从增强的学习协同作用中获益。

3. Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization（ICLR 2024）

简述： 本文提出了一种新的多模态大模型 LaVIT，它通过将视觉内容转换为可被语言模型处理的离散标记，实现了视觉和语言数据的统一处理。这种方法打破了传统方法中将视觉输入仅作为提示的局限性，使 LaVIT 能够无差别地处理图像和文本，提高了模型在视觉语言任务中的性能。实验结果表明，LaVIT 在处理大规模视觉语言任务方面优于现有模型。

4. MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

简述： 本文提出了一种名为 MoE-tuning 的新的大型视觉语言模型（LVLM）训练策略，该策略构建了一个参数数量多但计算成本恒定的稀疏模型，解决了多模态学习和模型稀疏性相关的性能下降问题。还提出了 MoE-LLaVA 框架，一种基于 MoE 的稀疏 LVLM 架构，它在部署期间只激活部分专家，从而减少了计算成本。实验表明，MoE-LLaVA 在视觉理解方面表现出色，并减少了模型输出的幻觉。MoE-LLaVA 使用 30 亿个稀疏激活的参数，在各种视觉理解数据集上性能与 LLaVA-1.5-7B 相当，甚至在某些基准测试中超过了 LLaVA-1.5-13B。

简述： 现有的多模态模型重点捕捉每个模态内的全局信息，但忽视了跨模态感知局部信息的重要性。为了解决这个问题，本文提出了 LEGO，一个语言增强的多模态定位模型，LEGO 不仅捕捉全局信息，还在需要细致理解输入数据内部细节的任务上表现出色，具有精确的识别和定位能力。

6. InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Models

简述： 本文提出了 InternLM-XComposer2，一种先进的视觉语言模型，擅长自由格式的文本图像合成和理解，该模型能从多输入创建定制内容，超越传统视觉语言理解。采用部分 LoRA 方法，专为图像标记调整参数，保持语言知识完整，平衡视觉理解和文本创作。实验显示，基于 InternLM2-7B 的 InternLM-XComposer2 在长文本多模态创作中表现优异，视觉语言理解能力超越现有模型，某些评估与 GPT-4V 和 Gemini Pro 相当或更佳，展现卓越多模态理解能力。

13 个 SOTA 多模态大模型开源汇总（含论文与代码）

架构和创新

1. NExT-GPT: Any-to-Any Multimodal LLM（ICLR 2024）

2. DreamLLM: Synergistic Multimodal Comprehension and Creation（ICLR 2024）

3. Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization（ICLR 2024）

4. MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

6. InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Models

7. mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model

更多推荐文章

相关免费在线工具

8. LION: Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

9. PixelLM: Pixel Reasoning with Large Multimodal Model

模型优化和特定场景应用

10. Small Language Model Meets with Reinforced Vision Vocabulary

11. Improved Baselines with Visual Instruction Tuning

12. MobileVLM: A Fast, Strong and Open Vision Language Assistant for Mobile Devices

13. CogAgent: A Visual Language Model for GUI Agents

更多推荐文章

相关免费在线工具

13 个 SOTA 多模态大模型开源汇总（含论文与代码）

架构和创新

1. NExT-GPT: Any-to-Any Multimodal LLM（ICLR 2024）

2. DreamLLM: Synergistic Multimodal Comprehension and Creation（ICLR 2024）

3. Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization（ICLR 2024）

4. MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

5. LEGO: Language Enhanced Multi-modal Grounding Model

6. InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Models

7. mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

8. LION: Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

9. PixelLM: Pixel Reasoning with Large Multimodal Model

模型优化和特定场景应用

10. Small Language Model Meets with Reinforced Vision Vocabulary

11. Improved Baselines with Visual Instruction Tuning

12. MobileVLM: A Fast, Strong and Open Vision Language Assistant for Mobile Devices

13. CogAgent: A Visual Language Model for GUI Agents

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具