震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

原创 邱维明、一菲  2024年10月16日 18:13 上海

知全球AI热点 关注我们

# Pixtral 12B #

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

在AI领域,多模态模型正日益受到关注,并成为研究和开发的新焦点。这类模型不仅具备处理文本信息的能力,还能对图像进行理解和创造,为不同应用领域开辟了新的应用前景。近期,Mistral AI实验室公布了其最新研究成果——Pixtral 12B,这一多模态模型标志着重要的技术进步,目标是取代Mistral Nemo 12B。Pixtral 12B同时具备语言和视觉处理能力,是Mistral AI发布的首个多模态AI大语言模型,具有120亿参数和24GB的大小。这是一款具有里程碑意义的多模态大语言模型,标志着 AI 技术在理解和生成多模态内容方面迈出重要一步。

全球视频理解模型应用

,赞 4

Pixtral 12B建立在文本模型Nemo 12B基础上,包含一个专门的视觉编码器。

大概24GB,原生支持任意数量和尺寸的图像,大约有40层神经网络、14,336 个隐藏维度大小和32个注意力头,以及一个专用的视觉编码器,支持高分辨率图像(1024×1024)处理。

Pixtral 12B的发布形式是简单直接一个种子链,现在可通过链接、GitHub或Hugging Face下载模型,模型代码由社区开发者上传。

代码地址:https://huggingface.co/mistral-community/pixtral-12b-240910

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』
www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

Mistral的开发主管表示后续也会在Chatbot上接入模型,并提供API服务。

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

与此同时,还有人在放出Mistral发布会上公布的模型基准情况。Pixtral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了对比。多模态知识和推理、QA等方面都表现不错。

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』
www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』
www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

接下来,本文将探索Pixtral 12B的核心特性、表现效果以及其技术架构的奥秘。

1、核心特性

多模态处理能力:Pixtral 12B能够理解自然图像和文档,其在MMMU推理基准测试中达到了52.5%的准确率,超越了许多更大的模型 Pixtral 12B 能够理解自然图像和文档,在 MMMU 推理基准测试中表现出色,超越了许多参数规模更大的模型。

灵活的图像处理:模型原生支持任意数量和尺寸的图像,用户可以图像的自然分辨率和宽高比输入图像,模型能够灵活处理任意数量的图像 ,提供了很大的灵活性。

长上下文窗口:Pixtral 12B拥有128K tokens的长上下文窗口,可以处理多张图像,Pixtral 12B 能够处理包含多张图像的大型文档。

开源许可:Pixtral 12B 采用 Apache 2.0 许可,允许用户在 La Plateforme 或 Le Chat 上尝试使用,同时也可以在符合许可证的情况下进行商业使用。

强大的性能表现:在多模态推理方面,Pixtral 12B 提供了最佳的多模态推理能力,同时在关键文本任务上也表现优异,如遵循指令、编码和数学计算等。

先进的架构设计:包括一个全新的 400M 参数视觉编码器和基于 Mistral Nemo 的 12B 参数多模态解码器,支持可变图像尺寸,无需预处理即可将图像直接转换为模型可以理解的 tokens。

高效的视觉处理:Pixtral 12B 能够快速处理小图像,并且能够准确理解高分辨率的复杂图像,如图表、文档等。

2、性能表现

多模态推理方面,Pixtral 12B 提供最佳的多模态推理能力,在不牺牲关键文本能力(如遵循指令、编码和数学计算)的前提下,提供了最佳的多模态推理能力。在与封闭和更大的多模态模型的比较中,Pixtral 12B在许多情况下都超越了它们。同时,在关键文本任务上也表现优异,如遵循指令、编码和数学计算等。

三、架构亮点

Pixtral 12B的架构是其卓越性能的基石,它包括一个全新的400M参数视觉编码器和基于Mistral Nemo的12B参数多模态解码器。这一设计使得模型能够以原生分辨率处理图像,同时保持快速的推理速度。

1、可变图像尺寸

Pixtral 12B的设计哲学是优化速度与性能的完美结合。它训练了一个新的视觉编码器,原生支持可变图像大小,能够将图像直接转换为模型可以理解的tokens,而无需任何预处理。

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

3、架构亮点

Pixtral 12B模型的架构是其高性能的核心所在。该架构融合了一款创新的400M参数视觉编码器,以及基于Mistral Nemo架构的12B参数多模态解码器。这种设计使得模型具备在原始分辨率下处理图像的能力,同时确保了高效的推理速度。 12B通过其独特的结构设计,实现了对高清图像的高效处理,同时保持了快速响应的特性。Pixtral 12B的架构是其卓越性能的基石。

♥可变图像尺寸

Pixtral 12B的设计理念致力于实现速度与效能的最佳平衡。该模型开发了一个先进的视觉编码器,它天然适配不同尺寸的图像,能够将输入的图像直接转换成模型能够识别的符号(tokens),整个过程无需进行任何形式的图像预处理。Pixtral 12B的设计宗旨在于通过其创新的视觉编码器,无缝地处理不同分辨率的图像,并直接将其编码为模型内部语言,从而在保持处理效率的同时,提升了整体的性能表现。

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

♥架构能力

Pixtral 12B模型由两个关键部分组成:一是视觉编码器,二是多模态Transformer解码器。这种结构设计使得模型具备了处理各种数量及尺寸图像的能力,并且能够在包含128K tokens的大型上下文窗口中,维持高效的文本处理效能。换句话说,Pixtral 12B通过其视觉编码器和多模态Transformer解码器的结合,实现了对图像的灵活处理,无论图像的数量和大小如何,同时确保了在处理大量文本信息时的效率。

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

4、定性示例

Pixtral 12B在应对复杂的图形分析、图表解读、多图像指令执行以及图像至代码转换的任务上展现了非凡的技能。比如,它能够依据图表中的数据指出欧洲GDP排名前五的国家,或者根据所提供的图像内容生成相应的HTML代码。换句话说,Pixtral 12B在解析繁复图形、理解图表信息、遵循涉及多张图像的指令以及将图像内容转换成编程代码等方面展现了其高超的能力。

•复杂数字的推理

Prompt:

List the top 5 countries in Europe with the highest GDP

Response:

The top 5 countries in Europe with the highest GDP, based on the image, are:

1.Germany

·GDP: $3.99 trillion

·Percentage: 4.65%

2.United Kingdom

·GDP: $2.82 trillion

·Percentage: 3.29%

3.France

·GDP: $2.78 trillion

·Percentage: 3.24%

4.Italy

·GDP: $2.07 trillion

·Percentage: 2.42%

5.Spain

·GDP: $1.43 trillion

·Percentage: 1.66%

These countries are highlighted in green on the diagram.

•图表理解和分析

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

Prompt:

When did things start to go wrong for dark dragon?

Response:

The image is a line graph titled 'train/loss' that shows the training loss over steps for four different models: dark-dragon-50, dainty-sunset-49, different-haze-34, and morning-field-33. The x-axis represents the steps, ranging from 0 to 60k, and the y-axis represents the loss on a logarithmic scale from 1e-5 to 1e+5.

To determine when things started to go wrong for the dark-dragon-50 model, we need to look at the red line representing this model. Initially, the loss decreases, indicating that the model is learning effectively. However, around the 10k step mark, the loss starts to spike significantly. This spike indicates that the model's performance is deteriorating. The loss continues to spike and fluctuate, reaching very high values, which suggests that the model is not learning effectively and is likely overfitting or encountering other issues.

Therefore, the critical point where things started to go wrong for the dark-dragon-50 model is around the 10k step mark.

5、如何使用Pixtral?

用户可以方便地通过La Plateforme或Le Chat来体验Pixtral 12B的功能。另外,Mistral AI还推出了`mistral-inference`工具,简化了在本地环境中部署Pixtral 12B的过程。同时,用户还可以利用vLLM库来增强服务的处理能力。通过La Plateforme或Le Chat,用户可以轻松试用Pixtral 12B。Mistral AI提供的`mistral-inference`工具让本地运行该模型变得便捷。用户如果希望提升服务的效率,还可以选择采用vLLM库。

• La Plateforme

Pixtral可在La Plateforme上使用。我们可利用Pixtral的通过API调用实现功能,实现各种应用程序和工作流。下面是一个简单的例子。

curl https://api.mistral.ai/v1/chat/completions \

-H "Content-Type: application/json" \ -H "Authorization: Bearer $MISTRAL_API_KEY" \ -d '{ "model": "pixtral-12b-2409", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "What’s in this image?" }, { "type": "image_url", "image_url": "https://tripfixers.com/wp-content/uploads/2019/11/eiffel-tower-with-snow.jpeg" } ] } ], "max_tokens": 300 }'

• mistral-inference

在本地运行Pixtral的最简单方法是使用 mistral-inference。安装 mistral_inference 后,我们可下载模型,加载模型并使用如下代码运行模型。

# download the model

from huggingface_hub import snapshot_downloadfrom pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models', 'Pixtral')mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Pixtral-12B-2409", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)
# load the model from mistral_inference.transformer import Transformerfrom mistral_inference.generate import generate
from mistral_common.tokens.tokenizers.mistral import MistralTokenizerfrom mistral_common.protocol.instruct.messages import UserMessage, TextChunk, ImageURLChunkfrom mistral_common.protocol.instruct.request import ChatCompletionRequest
tokenizer = MistralTokenizer.from_file(f"{mistral_models_path}/tekken.json")model = Transformer.from_folder(mistral_models_path)
# Run the model url = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png"prompt = "Describe the image."
completion_request = ChatCompletionRequest(messages=[UserMessage(content=[ImageURLChunk(image_url=url), TextChunk(text=prompt)])])
encoded = tokenizer.encode_chat_completion(completion_request)
images = encoded.imagestokens = encoded.tokens
out_tokens, _ = generate([tokens], model, images=[images], max_tokens=256, temperature=0.35, eos_id=tokenizer.instruct_tokenizer.tokenizer.eos_id)result = tokenizer.decode(out_tokens[0])
print(result)

• vLLM推理

如果选择在本地提供Pixtral,还可使用 vLLM 框架进行推理,以达到更高的服务吞吐量。下面是简单的用法示例。

from vllm import LLM


from vllm.sampling_params import SamplingParamsmodel_name = "mistralai/Pixtral-12B-2409"sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral")prompt = "Describe this image in one sentence."
image_url = "https://picsum.photos/id/237/200/300"
messages = [ { "role": "user", "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}] },]
outputs = vllm_model.model.chat(messages, sampling_params=sampling_params)print(outputs[0].outputs[0].text)

6、欧洲版OpenAI估值达60亿美元

Mistral AI 是一家销售人工智能产品的法国公司。它由 Meta Platforms 和 Google DeepMind 的前员工于 2023 年 4 月创立。该公司于 2023 年 10 月筹集了 3.85 亿欧元,2023 年 12 月估值超过 20 亿美元。这家法国AI初创公司在业内被称为欧洲版OpenAI。

•Mistral.AI 的愿景与使命

我们是一个具有高科学标准的小型创意团队。我们通过突破性的创新打造开放、高效、有用且值得信赖的人工智能模型。我们的使命是让前沿人工智能无处不在,为所有建设者提供量身定制的人工智能。这需要强烈的独立性,对开放、便携和可定制解决方案的坚定承诺,以及对在有限时间内交付最先进技术的高度关注。

•近期融资情况

最近几个月,Mistral的动作还是非常密集的。今年6月,他们通过股权债务融资完成约6.4亿美元B轮融资。估值已达60亿美元(折合人民币约420亿)。完成融资后,他们便发布了Mistral Large 2旗舰模型、SMoE模型Mistral 8×22B以及开源模型Codestral等。目前,微软、AWS、Snowflake等巨头均投资Mistral。尤其是微软的入股,使得Mistral成为OpenAI以外,微软Azure第二个商业闭源模型供应商。这也进一步夯实了Mistral“欧洲版OpenAI”的地位。

•陷入造假风波

不过,Hugging Face技术负责人Philipp Schmid在第一时间发现,Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。把数据补全到柱状图中后可以看出,Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。也就是说,Mistral AI的首个多模态模型,被一个参数量小了近42%的模型吊打了!此外,还有网友指出他们连模型的名字好像都没写对……

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』
www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

显然,AI界对Pixtral 12B的推出给予了极高的重视和关注。无疑,Pixtral 12B在多模态AI模型领域实现了重大突破,并且将成为未来人工智能应用发展的一个重要风向标。它在多模态任务中的卓越表现以及在文本处理方面的顶尖能力,都预示着它将在人工智能领域扮演越来越关键的角色。我们有理由相信,Pixtral 12B将引领我们进入一个多模态智能的全新时代。

我们致力于视频理解模型私有化部署,视频标注,构筑数据集等方向的产业化发展,服务上市公司

亚太人工智能学会(Asia-Pacific Artificial Intelligence Association)于2021年在香港注册成立。亚太人工智能学会(AAIA)是由全球1908位院士自愿组成的学术性、非营利性、非政府性组织。经过3年多发展,亚太人工智能学会(AAIA)已成为全球顶尖AI学会。

www.zeeklog.com  - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

【亚太人工智能学会

Read more

60个“特征工程”计算函数(Python代码)

60个“特征工程”计算函数(Python代码)

转自:coggle数据科学 近期一些朋友询问我关于如何做特征工程的问题,有没有什么适合初学者的有效操作。 特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。 最近刚好看到一篇文章汇总了非常多的聚合函数,就摘录在下方,供许多初入竞赛的朋友参考。 聚合特征汇总 pandas自带的聚合函数 * 其它重要聚合函数 其它重要聚合函数&分类分别如下。 def median(x):     return np.median(x) def variation_coefficient(x):     mean = np.mean(x)     if mean != 0:         return np.std(x) / mean     else:         return np.nan def variance(x):     return

By Ne0inhk
90w,确实可以封神了!

90w,确实可以封神了!

要说24年一定最热的技术,还得是AIGC! 前段时间阿里旗下的开源项目,登上GitHub热榜! AI大热,如今ChatGPT的优异表现,必然会出现各种细分场景应用的工具软件,和大量岗位项目! 山雨欲来风满楼,强人工智能的出现,所有科技公司已经开始巨量扩招此领域的人才。算法的岗位,近三个月已经增长68%!这件事在HR届也是相当震撼的。 目前各行各业都不景气的市场,人工智能岗位却一直保持常青!甚至同属AI边缘岗都比其他岗薪资高40%! 与此同时,AI算法岗上岸也不简单,竞争激烈,好公司核心岗位不用说,谁都想去。 所以事实就是,想要上岸,门槛也逐渐变高,项目经历、实习经历都很重要,越早明白这个道理就越能提前建立起自己的优势。 但我在b站逛知识区的时候,经常看到有些同学,因为一些客观原因导致无法参加实习,这种情况下,如果你想提升背景,增加项目经历的话,可以试试这个《CV/NLP 算法工程师培养计划》。 目前已经有上千位同学通过该计划拿到offer了,最新一期学员就业薪资最高能拿到78K!年薪94w! 优势就是有BAT大厂讲师带领,手把手带做AI真实企业项目(包含CV、NLP等

By Ne0inhk
再见nohup!试试这个神器,Python Supervisor!

再见nohup!试试这个神器,Python Supervisor!

👇我的小册 45章教程:() ,原价299,限时特价2杯咖啡,满100人涨10元。 作者丨Ais137 https://juejin.cn/post/7354406980784373798 1. 概述 Supervisor 是一个 C/S 架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。 2. 问题场景 在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者是消费者进程等。这类进程通常是作为后台进程持久化运行的。 一般的部署方法是通过 nohup cmd & 命令来部署。但是这种方式有个弊端是在某些情况下无法保证目标进程的稳定性运行,有的时候 nohup 运行的后台任务会因为未知原因中断,从而导致服务或者消费中断,进而影响项目的正常运行。 为了解决上述问题,通过引入 Supervisor 来部署持久化进程,提高系统运行的稳定性。 3. Supervisor 简介 Supervisor is a client/

By Ne0inhk
第一本给程序员看的AI Agent图书上市了!

第一本给程序员看的AI Agent图书上市了!

AI Agent火爆到什么程度? OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个软件行业;吴恩达教授在AI Ascent 2024演讲中高赞:AI Agent是一个令人兴奋的趋势,所有从事AI开发的人都应该关注。而国内的各科技巨头也纷纷布局AI Agent平台,如:钉钉的AI PaaS、百度智能云千帆大模型平台等等。 Agent 是未来最重要的智能化工具。对于程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent。 小异带来一本新书《大模型应用开发 动手做 AI Agent》,这本书由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent。现在下单享受5折特惠! ▼点击下方,即可5折起购书 有这样一本秘籍在手,程序员们这下放心了吧,让我们先来揭开 Agent 的神秘面纱。 AI Agent 面面观

By Ne0inhk