算法

国产7B大模型InternLM-XComposer媲美GPT-4V | 新增“多图多轮对话、指令生成网页、图文混排”等实用功能！

优质文章学习记录

25 Dec 2024 — 12 min read

国产7B大模型InternLM-XComposer媲美GPT-4V | 新增“多图多轮对话、指令生成网页、图文混排”等实用功能！

原创 AI产品汇 2024年07月19日 07:20广东

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区！

“ 书生浦语系列的多模态大模型是上海人工智能研究院推出的国产的多模态大模型。当前已经经历了几次大的迭代，具体包括：InternLM-XComposer、InternLM-XComposer2、InternLM-XComposer2-4KHD、InternLM-XComposer2.5。大模型的各项能力也得到了全面的提升，除了支持一些基础的功能之外，还支持一些很实用的功能，例如：支持4K图片理解、多轮多图对话、根据简历或者指令快速生成Web主页、图文混排等特点功能。本文介绍了InternetLM-XComposer-2.5（IXC-2.5），这是一个支持长上下文输入和输出的通用大型视觉语言模型。IXC-2.5擅长于各种文本图像理解和合成应用程序，仅需7B LLM后端即可实现GPT-4V级别的功能。”

代码链接-https://github.com/InternLM/InternLM-XComposer

论文链接-https://arxiv.org/abs/2407.03320

01-书生·浦语2简介

，时长01:17

InternetLMXComposer2-4KHD，即书生浦语2是一个多模态大模型，这是一项突破性的探索，旨在将LVLM分辨率提高到4K HD（3840×1600）及以上。同时，考虑到超高分辨率可能并非在所有情况下都是必要的，它支持从336像素到4K标准的各种不同分辨率，大大拓宽了其适用范围。

具体而言，本研究通过引入一种新的扩展：具有自动补丁配置的动态分辨率，推进了补丁划分范式。它保持训练图像纵横比，同时自动改变补丁计数，并基于预训练的视觉转换器（ViT）（336×336）配置布局，从而实现从336像素到4K标准的动态训练分辨率。

大量的实验研究表明，将训练分辨率扩展到4K HD可以实现一致的性能增强，而不会达到潜在改进的上限。InternetLM-XComposer2-4KHD在16个基准测试中的10个测试中显示出与GPT4V和Gemini Pro相匹配甚至超越的卓越性能。

02-浦语·灵笔2.5简介

，时长02:45

本文介绍了InternetLM-XComposer-2.5（IXC-2.5），这是一个支持长上下文输入和输出的通用大型视觉语言模型。IXC-2.5擅长于各种文本图像理解和合成应用程序，仅需7B LLM后端即可实现GPT-4V级别的功能。经过24K交错图像文本上下文的训练，它可以通过RoPE外推无缝扩展到96K长上下文。这种长上下文功能允许IXC-2.5在需要大量输入和输出上下文的任务中表现出色。

与之前的2.0版本相比，InternetLMXComposer-2.5在视觉语言理解方面有三个主要升级：1）超高分辨率理解；2）细粒度视频理解；3）多回合多图像对话。除了理解，IXC-2.5还扩展到两个引人注目的应用程序，使用额外的LoRA参数进行文本图像合成：制作网页和合成高质量的文本图像文章。

IXC-2.5已经在28个基准上进行了评估，在16个基准上优于现有的开源最先进的模型。它还在16项关键任务上超越或与GPT-4V和Gemini Pro竞争。

03-浦语·灵笔2.5特点

03.01-支持4K图片理解

www.zeeklog.com - 国产7B大模型InternLM-XComposer媲美GPT-4V | 新增“多图多轮对话、指令生成网页、图文混排”等实用功能！

上图展示了该算法在1200*4679大小的输入图片上面执行问答与分析的效果。浦语·灵笔2.5使用560×560分辨率的ViT视觉编码器增强了IXC2-4KHD中提出的动态分辨率解决方案，支持具有任意纵横比的高分辨率图像。尽管这个功能不是很常用，但在某些场景还是具有一定的实用价值。

03.02-细粒度视频理解

上图展示了该算法强大的视频理解能力。浦语·灵笔2.5将视频视为由数十到数千帧组成的超高分辨率复合图像，从而通过密集采样和每帧更高的分辨率捕捉细节。

03.03-多轮多图像对话

上图展示了该算法的多轮多图对话能力。这个功能比较新颖，在其它多模态模型上面暂时没看到这种能力。不过上图展示的只是简单的对不同图片进行了描述，并不是几张具有连续的图像。浦语·灵笔2.5支持自由形式的多轮多图像对话，使其能够在多轮对话中与人类自然互动。

03.04-根据指令/简历制作网页

上图展示了该算法根据指令和个人简历制作生成网页。这在真实场景中还有大有用处，可以极大的提升工作效率，没有人会拒绝拥有一个美观实用的个人主页。浦语·灵笔2.5可以通过遵循文本-图像指令来创建网页，包括源代码（HTML、CSS和JavaScript）的组合。

03.05-图文创作

上图展示了该算法根据用户描述生成的图文混排的文章内容。浦语·灵笔2.5利用特别设计的“思维链”（CoT）和“直接偏好优化”（DPO）技术，显著提高了其创作内容的质量。

03.06-截图生成Markdown

上图展示了该算法根据截屏的图片生成相应的Markdown文档，并将其渲染成对应的网页。尽管这个技术并不新颖，但是很多多模态大模型暂时还没有这个能力。

04-浦语·灵笔2.5流程

上图展示了该算法的整体流程，它支持多模式输入，包括文本、单个/多个图像和视频。详细的步骤如下所述：

首先，将输入图片或者视频进行裁剪，通过编码与合并之后生成

视角的特征；

然后，将输入图片或者视频切分小的片段，通过编码与合并之后生成局部视角的特征；

接着，将全局特征和局部特征展开，并执行Concat操作；

接着，对输入提示执行Tokenize操作，生成相关特征；

最后，将Tokenize输入到LLM中，将融合的特征输入到LLM和PLoRA中获得输出结果。

05-浦语·灵笔2.5实现细节

05.01-模型架构

InternetLM-XComposer-2.5的模型架构主要遵循InternetLM-XComposer2和InternetLMXComposer2-4KHD（为了简单来说，是IXC2和IXC2-4KHD）的设计，包括轻量级视觉编码器OpenAI ViT-L/14、大型语言模型InternetLM27B和Partial LoRA技术，从而实现高效对齐。

在预训练阶段，LLM（InternLM27B[）被冻结，同时视觉编码器和部分LoRA都被微调以将视觉标记与LLM对齐。在实践中，作者使用IXC2的CLIP ViT-L-14-490作为视觉编码器，并将其分辨率进一步提高到560×560。对于统一动态图像分区策略[34]，相关设置最大数量H=12。对于部分LoRA，作者为LLM解码器块中的所有线性层设置256的秩。该训练过程涉及4096个批量，跨越2个时期。在前1%的训练步骤内，学习率线性增加到2×10−4。在此之后，根据余弦衰减策略，它将减小到0。为了保留视觉编码器的原始知识，作者应用分层学习率（LLDR）衰减策略，并且衰减因子设置为0.90。

在模型微调阶段，统一动态图像分区策略的最大数量H是24，以处理超大的图像和视频。对于视频数据集，IXC-2.5使用最多64帧连接的大图像进行训练。最大的训练上下文被设置为24000个上下文窗口大小，其中MMDU数据集可以实现这一限制。

在实践中，作者在4000个步骤中联合训练批大小为2048的所有组件。按照加权方式对来自多个源的数据进行采样，加权基于来自每个源的数据数量。最大学习率设置为5×10−5，每个组件都有自己独特的学习策略。对于视觉编码器，作者将LLDR设置为0.9，这与预训练策略一致。对于LLM，使用0.2的固定学习率量表因子。这减缓了LLM的更新速度，在保留其原始功能和使其与视觉知识保持一致之间实现了平衡。

05.01-训练与微调数据集

上表展示了该模型在预训练阶段所使用的数据集。为了实现这三个目标，作者从不同来源收集了大量的数据，详细的数据集如上所示。

上表展示了该模型用于监督微调阶段的数据集。作者从不同的来源收集了大量的数据，从而赋予模型不同的功能。这里面包含：字幕生成、通用QA、多轮QA、科学QA、字符QA、数学QA、世界知识QA、OCR QA、HD-OCR QA、视频等。

06-浦语·灵笔2.5性能评估

上图展示了InternetLM-XComposer-2.5（IXC-2.5）在不同领域的基准测试上的性能概述，包括视频基准测试、结构高分辨率基准测试、通用视觉QA基准测试、多真实多图像基准测试和网页制作基准测试。通过观察与分析，我们可以发现：基于InternetLM2-7B的IXC-2.5在15个基准测试中的各项评估指标与GPT-4V和Gemini Pro相匹配甚至超过它们。

上图展示了该算法与视频基准和结构高分辨率基准上的闭源API和以前的开源SOTA算法的多项客观指标的品谷结果。最佳结果以粗体显示，次佳结果以下划线显示。通过观察与分析，我们可以发现：在多项评估指标上面，该算法都获得了不错的得分，在QA和Video方面仍然需要进一步提升！

上图展示了该算法在Multi-Turn Multi-Image Dialog和General Visual QA Benchmarks上与封闭源代码API和以前的开源SOTA算法的多项指标评估结果。通过观察与分析，我们可以发现：在上面的两个任务中，该算法的多项评估指标都优于GPT-4V，在MMMU和MMB等维度需要进一步的提升。指标与得分只能说明一部分内容，真正好不好用还需要用现实数据来测试与验证！

07-浦语·灵笔2.5效果展示