国产多模态大模型 InternLM-XComposer 2.5 升级,原生支持 24K 图文上下文
随着人工智能技术的快速发展,多模态大模型在理解与生成复杂内容方面的能力日益受到关注。近期,书生·浦语灵笔(InternLM-XComposer)多模态大模型迎来了 2.5 版本的重大升级。该版本不仅原生支持 24K 多模态图文上下文,能够处理超过 20 轮的图文交互,还在图像视频理解、网页创作、图文写作等方面实现了显著的性能提升,多项评测指标对标 GPT-4V 和 Gemini Pro。
核心功能升级概览
InternLM-XComposer 2.5(以下简称 IXC 2.5)作为 8B 量级性能优秀的多模态大模型之一,其核心突破在于长上下文的理解与生成能力的统一。在此之前,许多模型在处理长文本时往往牺牲了视觉理解能力,或者反之。IXC 2.5 通过架构创新,同时兼顾了这两种需求。
1. 超长上下文支持
IXC 2.5 原生支持 24K 的图文上下文长度。这意味着模型可以在一次对话中记住并分析大量的历史交互信息。在实际应用场景中,这表现为支持超过 20 轮的连续图文对话。用户不再受限于短对话窗口,可以进行复杂的任务拆解和多步骤推理。
为了实现这一能力,研究团队构建了第一个多模态长上下文指令数据集 MMDU。该数据集包含了平均 15 轮图文对话,最大包含 20 张图像,最多对话轮次可达 27 次。数据集现已开源,为后续的多模态长序列训练提供了重要基准。
2. 高分辨率图像理解
传统的多模态模型往往将图片压缩至较低分辨率输入,导致细节丢失。IXC 2.5 支持分析文档、网页、图表等信息丰富的超高清图像,分辨率可超过 4K。
例如,当输入一张分辨率为 1312x22619 像素的长截图时,模型能够准确识别其中的文字内容、布局结构以及关键信息。无论是论文细节还是图表数据,模型均能进行精准提取和回答。这种能力对于文档分析、科研辅助等场景具有极高的实用价值。
3. 精细视频内容分析
除了静态图像,IXC 2.5 还具备精细的视频内容分析能力。在多项视频大模型评测中表现优异。研究团队构造了 ShareGPT4Video 图像描述数据集,包括了 3000 个小时的精细视频描述标注。视频数据来源多样,涵盖 Panda、EGO-4D、Pexels、Pixabay 等,场景丰富。这使得模型能够理解视频中的时序变化、动作逻辑及因果关系。

4. 高质量内容生成
在输出端,IXC 2.5 同样进行了强化。它支持高质量的网页创作和文章生成。
网页创作能力:扩展了网页代码的编写能力,可以根据图文指令输入,编写对应的前端和交互代码(HTML, CSS, JavaScript)。具体包括:
- 网页截图转代码:输入网页截图,输出对应的前端代码。
- 语言指令做网页:输入制作要求,创作网页代码并渲染。
- 个人简历做网页:输入简历 PDF,制作对应的个人主页。
图文写作能力:为了提升文笔质量,团队构造了 2000 篇涵盖高考作文、散文、小说等不同文风的文章打分数据,并训练了一个 Reward Model。利用该 Reward Model 进一步构造了 30000 篇文章质量偏好数据,用于直接偏好学习(DPO)训练。这不仅提升了文章创作的稳定性,还能对生成的内容进行专业点评。
技术架构深度解析
IXC 2.5 的技术实现基于今年 4 月提出的 4K 分辨率图像多模态大模型方案 IXC2-4KHD,并在此基础上扩展了一套可以统一处理高分辨率图像和视频的多模态模型架构。
统一视觉编码策略
为了兼顾模型对于视觉内容的理解和语言创作能力,IXC 2.5 采用了独特的特征拼接策略:
- 视频帧拼图:对于视频数据,模型会均匀采样视频帧,并将视频帧拼成一个超长的高分辨率图片。每一帧图像上用文字标记视频的时序信息,从而将视频问题转化为图像理解问题。
- 全局特征(Global View):将整张高分辨率图像整体 resize 到 560x560 大小,用 ViT(Vision Transformer)抽取全局特征,捕捉整体语义。
- 局部特征(Local View):将高分辨率图像切块,每块 560x560 分辨率,分别抽取局部特征,保留细节信息。
- 特征拼接:将 Global View 和 Local View 的特征拼成一个序列,用
\n token 标记图像长宽比布局,用 sp token 分隔全局特征和局部特征。
PLoRA 架构设计
针对视觉 Token 单独增加一组 LoRA 参数进行编码,即 PLoRA(局部 LoRA)架构。这种方式让新增的 LoRA 参数只影响视觉 Token,一方面可以帮助模型更好地理解视觉信息,同时减少对模型语言能力的影响,避免了多模态微调中常见的'灾难性遗忘'现象。

部署与使用指南
IXC 社区提供了完善的量化、部署、微调代码支持,降低了企业和个人开发者使用门槛。
1. 量化与部署
IXC 2.5 由 LMDeploy 项目支持模型部署和量化。用户只需要不到 24GB 显存就可以运行,同时支持多卡推理以降低单卡显存要求。这对于消费级显卡用户非常友好。
2. 微调支持
IXC 2.5 支持使用研究团队开源的微调代码,以及 Modelscope Swift 项目支持的微调代码两种实现方式。使用 LoRA 微调最少只需要 32GB 显存。这使得用户可以基于特定领域的数据快速定制模型能力。
3. 本地 Demo 运行
IXC 2.5 的 demo 代码使用 Whisper 和 MeloTTS 支持了语音输入输出,支持本地部署。以下是基本的推理代码示例:
from internlm.xcomposer.api import XComposer2_5
import torch
model = XComposer2_5.from_pretrained(
"internlm/internlm-xcomposer-2.5-7b",
device_map="auto",
trust_remote_code=True
)
image_path = "example.jpg"
prompt = "请描述这张图片的内容。"
response, history = model.chat(
image=image_path,
query=prompt,
history=None
)
print(response)
4. 资源链接
应用场景展望
IXC 2.5 的发布标志着国产多模态大模型在长上下文处理和精细化理解上迈出了重要一步。其应用场景广泛,包括但不限于:
- 智能客服:处理长周期的用户咨询记录,提供连贯的服务体验。
- 文档助手:快速阅读和分析长篇 PDF 文档、合同或报告。
- 教育辅导:批改学生作业,分析试卷题目,提供个性化讲解。
- 内容创作:辅助设计师生成网页原型,辅助作家润色文章。
总结
InternLM-XComposer 2.5 通过原生支持 24K 图文上下文、高分辨率图像理解及精细视频分析,展现了强大的多模态处理能力。结合 PLoRA 架构优化和便捷的部署方案,该模型为开发者提供了高效、低成本的工具。随着生态的完善,相信将在更多垂直领域发挥重要作用。