国产多模态大模型 InternLM-XComposer 2.5 升级，原生支持 24K 图文上下文

随着人工智能技术的快速发展，多模态大模型在理解与生成复杂内容方面的能力日益受到关注。近期，书生·浦语灵笔（InternLM-XComposer）多模态大模型迎来了 2.5 版本的重大升级。该版本不仅原生支持 24K 多模态图文上下文，能够处理超过 20 轮的图文交互，还在图像视频理解、网页创作、图文写作等方面实现了显著的性能提升，多项评测指标对标 GPT-4V 和 Gemini Pro。

核心功能升级概览

InternLM-XComposer 2.5（以下简称 IXC 2.5）作为 8B 量级性能优秀的多模态大模型之一，其核心突破在于长上下文的理解与生成能力的统一。在此之前，许多模型在处理长文本时往往牺牲了视觉理解能力，或者反之。IXC 2.5 通过架构创新，同时兼顾了这两种需求。

1. 超长上下文支持

IXC 2.5 原生支持 24K 的图文上下文长度。这意味着模型可以在一次对话中记住并分析大量的历史交互信息。在实际应用场景中，这表现为支持超过 20 轮的连续图文对话。用户不再受限于短对话窗口，可以进行复杂的任务拆解和多步骤推理。

为了实现这一能力，研究团队构建了第一个多模态长上下文指令数据集 MMDU。该数据集包含了平均 15 轮图文对话，最大包含 20 张图像，最多对话轮次可达 27 次。数据集现已开源，为后续的多模态长序列训练提供了重要基准。

2. 高分辨率图像理解

传统的多模态模型往往将图片压缩至较低分辨率输入，导致细节丢失。IXC 2.5 支持分析文档、网页、图表等信息丰富的超高清图像，分辨率可超过 4K。

例如，当输入一张分辨率为 1312x22619 像素的长截图时，模型能够准确识别其中的文字内容、布局结构以及关键信息。无论是论文细节还是图表数据，模型均能进行精准提取和回答。这种能力对于文档分析、科研辅助等场景具有极高的实用价值。

3. 精细视频内容分析

除了静态图像，IXC 2.5 还具备精细的视频内容分析能力。在多项视频大模型评测中表现优异。研究团队构造了 ShareGPT4Video 图像描述数据集，包括了 3000 个小时的精细视频描述标注。视频数据来源多样，涵盖 Panda、EGO-4D、Pexels、Pixabay 等，场景丰富。这使得模型能够理解视频中的时序变化、动作逻辑及因果关系。

多模态长上下文示意图

4. 高质量内容生成

在输出端，IXC 2.5 同样进行了强化。它支持高质量的网页创作和文章生成。

网页创作能力：扩展了网页代码的编写能力，可以根据图文指令输入，编写对应的前端和交互代码（HTML, CSS, JavaScript）。具体包括：

网页截图转代码：输入网页截图，输出对应的前端代码。
语言指令做网页：输入制作要求，创作网页代码并渲染。
个人简历做网页：输入简历 PDF，制作对应的个人主页。

图文写作能力：为了提升文笔质量，团队构造了 2000 篇涵盖高考作文、散文、小说等不同文风的文章打分数据，并训练了一个 Reward Model。利用该 Reward Model 进一步构造了 30000 篇文章质量偏好数据，用于直接偏好学习（DPO）训练。这不仅提升了文章创作的稳定性，还能对生成的内容进行专业点评。

技术架构深度解析

IXC 2.5 的技术实现基于今年 4 月提出的 4K 分辨率图像多模态大模型方案 IXC2-4KHD，并在此基础上扩展了一套可以统一处理高分辨率图像和视频的多模态模型架构。

统一视觉编码策略

为了兼顾模型对于视觉内容的理解和语言创作能力，IXC 2.5 采用了独特的特征拼接策略：

视频帧拼图：对于视频数据，模型会均匀采样视频帧，并将视频帧拼成一个超长的高分辨率图片。每一帧图像上用文字标记视频的时序信息，从而将视频问题转化为图像理解问题。
全局特征（Global View）：将整张高分辨率图像整体 resize 到 560x560 大小，用 ViT（Vision Transformer）抽取全局特征，捕捉整体语义。
局部特征（Local View）：将高分辨率图像切块，每块 560x560 分辨率，分别抽取局部特征，保留细节信息。