书生2.5 - 多模态多任务通用大模型 github页面

书生2.5 - 多模态多任务通用大模型 github页面

书生2.5 - 多模态多任务通用大模型

这个代码仓库是的官方实现。

[] []

亮点

  • 👍 高达30亿参数的最强视觉通用主干模型
  • 🏆 图像分类标杆数据集ImageNet 90.1% Top1准确率,开源模型中准确度最高
  • 🏆 物体检测标杆数据集COCO 65.5 mAP,唯一超过65 mAP的模型

相关项目

多模态基模型

  • : 通用感知任务预训练统一框架, 可直接处理zero-shot和few-shot任务
  • : 用于处理图像/图文任务的通用模型
  • : 基于最大化输入和目标的互信息的单阶段预训练范式

自动驾驶

  • : 基于BEV的新一代纯视觉环视感知方案
  • : 融合BEV感知和透视图检测的两阶段检测器

Application in Challenge

  • : 基于书生2.5 BEVFormer++取得赛道冠军
  • : BEVFormer v2 在nuScenes纯视觉检测任务中取得SOTA性能(64.8 NDS)
  • : InternImage作为baseline支持了比赛 和

最新进展

  • 2023年3月14日: 🚀 “书生2.5”发布!
  • 2023年2月28日: 🚀 InternImage 被CVPR 2023接收!
  • 2022年11月18日: 🚀 基于 InternImage-XL 主干网络, 在nuScenes的纯视觉3D检测任务上取得了最佳性能 63.4 NDS
  • 2022年11月10日: 🚀 InternImage-H 在COCO目标检测任务上以 65.4 mAP 斩获冠军,是唯一突破 65.0 mAP 的超强物体检测模型!
  • 2022年11月10日: 🚀 InternImage-H 在ADE20K语义分割数据集上取得 62.9 mIoU 的SOTA性能!

项目功能

  • 各类下游任务
  • 支持,
  • 支持Segment Anything
  • 支持提取模型中间层特征,
  • 支持基于的低成本训练,
  • DCNv3算子预编译.whl包,
  • InternImage-H(1B)/G(3B)
  • 支持分类/检测/分割TensorRT推理
  • InternImage 系列分类代码
  • InternImage-T/S/B/L/XL ImageNet-1K 预训练模型
  • InternImage-L/XL ImageNet-22K 预训练模型
  • InternImage-T/S/B/L/XL 检测和实例分割模型
  • InternImage-T/S/B/L/XL 语义分割模型

简介

"书生2.5"是商汤科技与上海人工智能实验室联合发布的多模态多任务通用大模型。"书生2.5"包括大规模视觉基础模型"InternImage",预训练算法"M3I-Pretraining",通用解码器"Uni-Perceiver"系列,以及自动驾驶感知通用编码器"BEVFormer"系列。

“书生2.5”的应用

1. 图像模态任务性能

  • 在图像分类标杆数据集ImageNet上,“书生2.5”仅基于公开数据便达到了 90.1% 的Top-1准确率。这是除谷歌与微软两个未公开模型及额外数据集外,唯一准确率超过90.0%的模型,同时也是世界上开源模型中ImageNet准确度最高,规模最大的模型;
  • 在物体检测标杆数据集COCO上,“书生2.5” 取得了 65.5 的 mAP,是世界上唯一超过65 mAP的模型;
  • 在另外16个重要的视觉基础数据集(覆盖分类、检测和分割任务)上取得世界最好性能。

分类任务

图像分类场景分类长尾分类
ImageNetPlaces365Places 205iNaturalist 2018
90.161.271.792.3

检测任务

常规物体检测长尾物体检测自动驾驶物体检测密集物体检测
COCOVOC 2007VOC 2012OpenImageLVIS minivalLVIS valBDD100KnuScenesCrowdHuman
65.594.097.274.165.863.238.864.897.2

分割任务

语义分割街景分割RGBD分割
ADE20KCOCO Stuff-10KPascal ContextCityScapesNYU Depth V2
62.959.670.386.169.7

2. 图文跨模态任务性能

  • 图文检索

“书生2.5”可根据文本内容需求快速定位检索出语义最相关的图像。这一能力既可应用于视频和图像集合,也可进一步结合物体检测框,具有丰富的应用模式,帮助用户更便捷、快速地找到所需图像资源, 例如可在相册中返回文本所指定的相关图像。

  • 以图生文

“书生2.5”的“以图生文”在图像描述、视觉问答、视觉推理和文字识别等多个方面均拥有强大的理解能力。例如在自动驾驶场景下,可以提升场景感知理解能力,辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆的决策规划提供有效的感知信息支持。

图文多模态任务

图像描述微调图文检索零样本图文检索
COCO CaptionCOCO CaptionFlickr30kFlickr30k
148.276.494.889.1

预训练模型

开源视觉预训练模型

ImageNet-1K图像分类

COCO目标检测和实例分割

ADE20K语义分割

模型推理速度

引用

若“书生2.5”对您的研究工作有帮助,请参考如下bibtex对我们的工作进行引用。 @article{wang2022internimage, title={InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions}, author={Wang, Wenhai and Dai, Jifeng and Chen, Zhe and Huang, Zhenhang and Li, Zhiqi and Zhu, Xizhou and Hu, Xiaowei and Lu, Tong and Lu, Lewei and Li, Hongsheng and others}, journal={arXiv preprint arXiv:2211.05778}, year={2022} } @inproceedings{zhu2022uni, title={Uni-perceiver: Pre-training unified architecture for generic perception for zero-shot and few-shot tasks}, author={Zhu, Xizhou and Zhu, Jinguo and Li, Hao and Wu, Xiaoshi and Li, Hongsheng and Wang, Xiaohua and Dai, Jifeng}, booktitle={CVPR}, pages={16804--16815}, year={2022} } @article{zhu2022uni, title={Uni-perceiver-moe: Learning sparse generalist models with conditional moes}, author={Zhu, Jinguo and Zhu, Xizhou and Wang, Wenhai and Wang, Xiaohua and Li, Hongsheng and Wang, Xiaogang and Dai, Jifeng}, journal={arXiv preprint arXiv:2206.04674}, year={2022} } @article{li2022uni, title={Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks}, author={Li, Hao and Zhu, Jinguo and Jiang, Xiaohu and Zhu, Xizhou and Li, Hongsheng and Yuan, Chun and Wang, Xiaohua and Qiao, Yu and Wang, Xiaogang and Wang, Wenhai and others}, journal={arXiv preprint arXiv:2211.09808}, year={2022} } @article{yang2022bevformer, title={BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision}, author={Yang, Chenyu and Chen, Yuntao and Tian, Hao and Tao, Chenxin and Zhu, Xizhou and Zhang, Zhaoxiang and Huang, Gao and Li, Hongyang and Qiao, Yu and Lu, Lewei and others}, journal={arXiv preprint arXiv:2211.10439}, year={2022} } @article{su2022towards, title={Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information}, author={Su, Weijie and Zhu, Xizhou and Tao, Chenxin and Lu, Lewei and Li, Bin and Huang, Gao and Qiao, Yu and Wang, Xiaogang and Zhou, Jie and Dai, Jifeng}, journal={arXiv preprint arXiv:2211.09807}, year={2022} } @inproceedings{li2022bevformer, title={Bevformer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers}, author={Li, Zhiqi and Wang, Wenhai and Li, Hongyang and Xie, Enze and Sima, Chonghao and Lu, Tong and Qiao, Yu and Dai, Jifeng}, booktitle={ECCV}, pages={1--18}, year={2022}, }

Read more

深入理解 Proxy 和 Object.defineProperty

在JavaScript中,对象是一种核心的数据结构,而对对象的操作也是开发中经常遇到的任务。在这个过程中,我们经常会使用到两个重要的特性:Proxy和Object.defineProperty。这两者都允许我们在对象上进行拦截和自定义操作,但它们在实现方式、应用场景和灵活性等方面存在一些显著的区别。本文将深入比较Proxy和Object.defineProperty,包括它们的基本概念、使用示例以及适用场景,以帮助读者更好地理解和运用这两个特性。 1. Object.defineProperty 1.1 基本概念 Object.defineProperty 是 ECMAScript 5 引入的一个方法,用于直接在对象上定义新属性或修改已有属性。它的基本语法如下: javascript 代码解读复制代码Object.defineProperty(obj, prop, descriptor); 其中,obj是目标对象,prop是要定义或修改的属性名,descriptor是一个描述符对象,用于定义属性的特性。 1.2 使用示例 javascript 代码解读复制代码//

By Ne0inhk

Proxy 和 Object.defineProperty 的区别

Proxy 和 Object.defineProperty 是 JavaScript 中两个不同的特性,它们的作用也不完全相同。 Object.defineProperty 允许你在一个对象上定义一个新属性或者修改一个已有属性。通过这个方法你可以精确地定义属性的特征,比如它是否可写、可枚举、可配置等。该方法的使用场景通常是需要在一个对象上创建一个属性,然后控制这个属性的行为。 Proxy 也可以用来代理一个对象,但是相比于 Object.defineProperty,它提供了更加强大的功能。使用 Proxy 可以截获并重定义对象的基本操作,比如访问属性、赋值、函数调用等等。在这些操作被执行之前,可以通过拦截器函数对这些操作进行拦截和修改。因此,通过 Proxy,你可以完全重写一个对象的默认行为。该方法的使用场景通常是需要对一个对象的行为进行定制化,或者需要在对象上添加额外的功能。 对比 以下是 Proxy 和 Object.defineProperty 的一些区别对比: 方面ProxyObject.defineProperty语法使用 new Proxy(target,

By Ne0inhk