跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

国产多模态大模型 InternLM-XComposer 2.5 升级,原生支持 24K 图文上下文

综述由AI生成InternLM-XComposer 2.5 多模态大模型升级,原生支持 24K 图文上下文,支持超过 20 轮图文交互。模型具备高分辨率图像理解、精细视频分析及高质量网页创作和图文写作能力。技术架构采用 PLoRA 设计,统一处理视觉与语言特征,兼容 LMDeploy 和 Modelscope Swift 进行量化部署与微调。该模型在多项评测中对标 GPT-4V,适用于智能客服、文档分析、教育辅导及内容创作等场景,为国产多模态技术发展提供了有力支撑。

协议工匠发布于 2025/2/7更新于 2026/5/2312 浏览
国产多模态大模型 InternLM-XComposer 2.5 升级,原生支持 24K 图文上下文

国产多模态大模型 InternLM-XComposer 2.5 升级,原生支持 24K 图文上下文

随着人工智能技术的快速发展,多模态大模型在理解与生成复杂内容方面的能力日益受到关注。近期,书生·浦语灵笔(InternLM-XComposer)多模态大模型迎来了 2.5 版本的重大升级。该版本不仅原生支持 24K 多模态图文上下文,能够处理超过 20 轮的图文交互,还在图像视频理解、网页创作、图文写作等方面实现了显著的性能提升,多项评测指标对标 GPT-4V 和 Gemini Pro。

核心功能升级概览

InternLM-XComposer 2.5(以下简称 IXC 2.5)作为 8B 量级性能优秀的多模态大模型之一,其核心突破在于长上下文的理解与生成能力的统一。在此之前,许多模型在处理长文本时往往牺牲了视觉理解能力,或者反之。IXC 2.5 通过架构创新,同时兼顾了这两种需求。

1. 超长上下文支持

IXC 2.5 原生支持 24K 的图文上下文长度。这意味着模型可以在一次对话中记住并分析大量的历史交互信息。在实际应用场景中,这表现为支持超过 20 轮的连续图文对话。用户不再受限于短对话窗口,可以进行复杂的任务拆解和多步骤推理。

为了实现这一能力,研究团队构建了第一个多模态长上下文指令数据集 MMDU。该数据集包含了平均 15 轮图文对话,最大包含 20 张图像,最多对话轮次可达 27 次。数据集现已开源,为后续的多模态长序列训练提供了重要基准。

2. 高分辨率图像理解

传统的多模态模型往往将图片压缩至较低分辨率输入,导致细节丢失。IXC 2.5 支持分析文档、网页、图表等信息丰富的超高清图像,分辨率可超过 4K。

例如,当输入一张分辨率为 1312x22619 像素的长截图时,模型能够准确识别其中的文字内容、布局结构以及关键信息。无论是论文细节还是图表数据,模型均能进行精准提取和回答。这种能力对于文档分析、科研辅助等场景具有极高的实用价值。

3. 精细视频内容分析

除了静态图像,IXC 2.5 还具备精细的视频内容分析能力。在多项视频大模型评测中表现优异。研究团队构造了 ShareGPT4Video 图像描述数据集,包括了 3000 个小时的精细视频描述标注。视频数据来源多样,涵盖 Panda、EGO-4D、Pexels、Pixabay 等,场景丰富。这使得模型能够理解视频中的时序变化、动作逻辑及因果关系。

多模态长上下文示意图

4. 高质量内容生成

在输出端,IXC 2.5 同样进行了强化。它支持高质量的网页创作和文章生成。

网页创作能力:扩展了网页代码的编写能力,可以根据图文指令输入,编写对应的前端和交互代码(HTML, CSS, JavaScript)。具体包括:

  • 网页截图转代码:输入网页截图,输出对应的前端代码。
  • 语言指令做网页:输入制作要求,创作网页代码并渲染。
  • 个人简历做网页:输入简历 PDF,制作对应的个人主页。

图文写作能力:为了提升文笔质量,团队构造了 2000 篇涵盖高考作文、散文、小说等不同文风的文章打分数据,并训练了一个 Reward Model。利用该 Reward Model 进一步构造了 30000 篇文章质量偏好数据,用于直接偏好学习(DPO)训练。这不仅提升了文章创作的稳定性,还能对生成的内容进行专业点评。

技术架构深度解析

IXC 2.5 的技术实现基于今年 4 月提出的 4K 分辨率图像多模态大模型方案 IXC2-4KHD,并在此基础上扩展了一套可以统一处理高分辨率图像和视频的多模态模型架构。

统一视觉编码策略

为了兼顾模型对于视觉内容的理解和语言创作能力,IXC 2.5 采用了独特的特征拼接策略:

  1. 视频帧拼图:对于视频数据,模型会均匀采样视频帧,并将视频帧拼成一个超长的高分辨率图片。每一帧图像上用文字标记视频的时序信息,从而将视频问题转化为图像理解问题。
  2. 全局特征(Global View):将整张高分辨率图像整体 resize 到 560x560 大小,用 ViT(Vision Transformer)抽取全局特征,捕捉整体语义。
  3. 局部特征(Local View):将高分辨率图像切块,每块 560x560 分辨率,分别抽取局部特征,保留细节信息。
  • 特征拼接:将 Global View 和 Local View 的特征拼成一个序列,用 \n token 标记图像长宽比布局,用 sp token 分隔全局特征和局部特征。
  • PLoRA 架构设计

    针对视觉 Token 单独增加一组 LoRA 参数进行编码,即 PLoRA(局部 LoRA)架构。这种方式让新增的 LoRA 参数只影响视觉 Token,一方面可以帮助模型更好地理解视觉信息,同时减少对模型语言能力的影响,避免了多模态微调中常见的'灾难性遗忘'现象。

    PLoRA 架构示意图

    部署与使用指南

    IXC 社区提供了完善的量化、部署、微调代码支持,降低了企业和个人开发者使用门槛。

    1. 量化与部署

    IXC 2.5 由 LMDeploy 项目支持模型部署和量化。用户只需要不到 24GB 显存就可以运行,同时支持多卡推理以降低单卡显存要求。这对于消费级显卡用户非常友好。

    2. 微调支持

    IXC 2.5 支持使用研究团队开源的微调代码,以及 Modelscope Swift 项目支持的微调代码两种实现方式。使用 LoRA 微调最少只需要 32GB 显存。这使得用户可以基于特定领域的数据快速定制模型能力。

    3. 本地 Demo 运行

    IXC 2.5 的 demo 代码使用 Whisper 和 MeloTTS 支持了语音输入输出,支持本地部署。以下是基本的推理代码示例:

    from internlm.xcomposer.api import XComposer2_5
    import torch
    
    # 初始化模型
    model = XComposer2_5.from_pretrained(
        "internlm/internlm-xcomposer-2.5-7b",
        device_map="auto",
        trust_remote_code=True
    )
    
    # 准备输入
    image_path = "example.jpg"
    prompt = "请描述这张图片的内容。"
    
    # 推理
    response, history = model.chat(
        image=image_path,
        query=prompt,
        history=None
    )
    print(response)
    

    4. 资源链接

    • 项目地址:https://github.com/InternLM/InternLM-XComposer
    • 论文地址:https://arxiv.org/pdf/2407.03320

    应用场景展望

    IXC 2.5 的发布标志着国产多模态大模型在长上下文处理和精细化理解上迈出了重要一步。其应用场景广泛,包括但不限于:

    • 智能客服:处理长周期的用户咨询记录,提供连贯的服务体验。
    • 文档助手:快速阅读和分析长篇 PDF 文档、合同或报告。
    • 教育辅导:批改学生作业,分析试卷题目,提供个性化讲解。
    • 内容创作:辅助设计师生成网页原型,辅助作家润色文章。

    总结

    InternLM-XComposer 2.5 通过原生支持 24K 图文上下文、高分辨率图像理解及精细视频分析,展现了强大的多模态处理能力。结合 PLoRA 架构优化和便捷的部署方案,该模型为开发者提供了高效、低成本的工具。随着生态的完善,相信将在更多垂直领域发挥重要作用。

    目录

    1. 国产多模态大模型 InternLM-XComposer 2.5 升级,原生支持 24K 图文上下文
    2. 核心功能升级概览
    3. 1. 超长上下文支持
    4. 2. 高分辨率图像理解
    5. 3. 精细视频内容分析
    6. 4. 高质量内容生成
    7. 技术架构深度解析
    8. 统一视觉编码策略
    9. PLoRA 架构设计
    10. 部署与使用指南
    11. 1. 量化与部署
    12. 2. 微调支持
    13. 3. 本地 Demo 运行
    14. 初始化模型
    15. 准备输入
    16. 推理
    17. 4. 资源链接
    18. 应用场景展望
    19. 总结
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • JavaScript Proxy 代理机制与核心方法详解

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • curl 转代码

      解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online