震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

原创 邱维明、一菲  2024年10月16日 18:13上海

知全球AI热点 关注我们

# Pixtral 12B #

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

在AI领域,多模态模型正日益受到关注,并成为研究和开发的新焦点。这类模型不仅具备处理文本信息的能力,还能对图像进行理解和创造,为不同应用领域开辟了新的应用前景。近期,Mistral AI实验室公布了其最新研究成果——Pixtral 12B,这一多模态模型标志着重要的技术进步,目标是取代Mistral Nemo 12B。Pixtral 12B同时具备语言和视觉处理能力,是Mistral AI发布的首个多模态AI大语言模型,具有120亿参数和24GB的大小。这是一款具有里程碑意义的多模态大语言模型,标志着 AI 技术在理解和生成多模态内容方面迈出重要一步。

全球视频理解模型应用

,赞 4

Pixtral 12B建立在文本模型Nemo 12B基础上,包含一个专门的视觉编码器。

大概24GB,原生支持任意数量和尺寸的图像,大约有40层神经网络、14,336 个隐藏维度大小和32个注意力头,以及一个专用的视觉编码器,支持高分辨率图像(1024×1024)处理。

Pixtral 12B的发布形式是简单直接一个种子链,现在可通过链接、GitHub或Hugging Face下载模型,模型代码由社区开发者上传。

代码地址:https://huggingface.co/mistral-community/pixtral-12b-240910

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』
www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

Mistral的开发主管表示后续也会在Chatbot上接入模型,并提供API服务。

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

与此同时,还有人在放出Mistral发布会上公布的模型基准情况。Pixtral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了对比。多模态知识和推理、QA等方面都表现不错。

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』
www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』
www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

接下来,本文将探索Pixtral 12B的核心特性、表现效果以及其技术架构的奥秘。

1、核心特性

多模态处理能力:Pixtral 12B能够理解自然图像和文档,其在MMMU推理基准测试中达到了52.5%的准确率,超越了许多更大的模型 Pixtral 12B 能够理解自然图像和文档,在 MMMU 推理基准测试中表现出色,超越了许多参数规模更大的模型。

灵活的图像处理:模型原生支持任意数量和尺寸的图像,用户可以图像的自然分辨率和宽高比输入图像,模型能够灵活处理任意数量的图像 ,提供了很大的灵活性。

长上下文窗口:Pixtral 12B拥有128K tokens的长上下文窗口,可以处理多张图像,Pixtral 12B 能够处理包含多张图像的大型文档。

开源许可:Pixtral 12B 采用 Apache 2.0 许可,允许用户在 La Plateforme 或 Le Chat 上尝试使用,同时也可以在符合许可证的情况下进行商业使用。

强大的性能表现:在多模态推理方面,Pixtral 12B 提供了最佳的多模态推理能力,同时在关键文本任务上也表现优异,如遵循指令、编码和数学计算等。

先进的架构设计:包括一个全新的 400M 参数视觉编码器和基于 Mistral Nemo 的 12B 参数多模态解码器,支持可变图像尺寸,无需预处理即可将图像直接转换为模型可以理解的 tokens。

高效的视觉处理:Pixtral 12B 能够快速处理小图像,并且能够准确理解高分辨率的复杂图像,如图表、文档等。

2、性能表现

多模态推理方面,Pixtral 12B 提供最佳的多模态推理能力,在不牺牲关键文本能力(如遵循指令、编码和数学计算)的前提下,提供了最佳的多模态推理能力。在与封闭和更大的多模态模型的比较中,Pixtral 12B在许多情况下都超越了它们。同时,在关键文本任务上也表现优异,如遵循指令、编码和数学计算等。

三、架构亮点

Pixtral 12B的架构是其卓越性能的基石,它包括一个全新的400M参数视觉编码器和基于Mistral Nemo的12B参数多模态解码器。这一设计使得模型能够以原生分辨率处理图像,同时保持快速的推理速度。

1、可变图像尺寸

Pixtral 12B的设计哲学是优化速度与性能的完美结合。它训练了一个新的视觉编码器,原生支持可变图像大小,能够将图像直接转换为模型可以理解的tokens,而无需任何预处理。

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

3、架构亮点

Pixtral 12B模型的架构是其高性能的核心所在。该架构融合了一款创新的400M参数视觉编码器,以及基于Mistral Nemo架构的12B参数多模态解码器。这种设计使得模型具备在原始分辨率下处理图像的能力,同时确保了高效的推理速度。 12B通过其独特的结构设计,实现了对高清图像的高效处理,同时保持了快速响应的特性。Pixtral 12B的架构是其卓越性能的基石。

♥可变图像尺寸

Pixtral 12B的设计理念致力于实现速度与效能的最佳平衡。该模型开发了一个先进的视觉编码器,它天然适配不同尺寸的图像,能够将输入的图像直接转换成模型能够识别的符号(tokens),整个过程无需进行任何形式的图像预处理。Pixtral 12B的设计宗旨在于通过其创新的视觉编码器,无缝地处理不同分辨率的图像,并直接将其编码为模型内部语言,从而在保持处理效率的同时,提升了整体的性能表现。

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

♥架构能力

Pixtral 12B模型由两个关键部分组成:一是视觉编码器,二是多模态Transformer解码器。这种结构设计使得模型具备了处理各种数量及尺寸图像的能力,并且能够在包含128K tokens的大型上下文窗口中,维持高效的文本处理效能。换句话说,Pixtral 12B通过其视觉编码器和多模态Transformer解码器的结合,实现了对图像的灵活处理,无论图像的数量和大小如何,同时确保了在处理大量文本信息时的效率。

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

4、定性示例

Pixtral 12B在应对复杂的图形分析、图表解读、多图像指令执行以及图像至代码转换的任务上展现了非凡的技能。比如,它能够依据图表中的数据指出欧洲GDP排名前五的国家,或者根据所提供的图像内容生成相应的HTML代码。换句话说,Pixtral 12B在解析繁复图形、理解图表信息、遵循涉及多张图像的指令以及将图像内容转换成编程代码等方面展现了其高超的能力。

•复杂数字的推理

Prompt:

List the top 5 countries in Europe with the highest GDP

Response:

The top 5 countries in Europe with the highest GDP, based on the image, are:

1.Germany

·GDP: $3.99 trillion

·Percentage: 4.65%

2.United Kingdom

·GDP: $2.82 trillion

·Percentage: 3.29%

3.France

·GDP: $2.78 trillion

·Percentage: 3.24%

4.Italy

·GDP: $2.07 trillion

·Percentage: 2.42%

5.Spain

·GDP: $1.43 trillion

·Percentage: 1.66%

These countries are highlighted in green on the diagram.

•图表理解和分析

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

Prompt:

When did things start to go wrong for dark dragon?

Response:

The image is a line graph titled 'train/loss' that shows the training loss over steps for four different models: dark-dragon-50, dainty-sunset-49, different-haze-34, and morning-field-33. The x-axis represents the steps, ranging from 0 to 60k, and the y-axis represents the loss on a logarithmic scale from 1e-5 to 1e+5.

To determine when things started to go wrong for the dark-dragon-50 model, we need to look at the red line representing this model. Initially, the loss decreases, indicating that the model is learning effectively. However, around the 10k step mark, the loss starts to spike significantly. This spike indicates that the model's performance is deteriorating. The loss continues to spike and fluctuate, reaching very high values, which suggests that the model is not learning effectively and is likely overfitting or encountering other issues.

Therefore, the critical point where things started to go wrong for the dark-dragon-50 model is around the 10k step mark.

5、如何使用Pixtral?

用户可以方便地通过La Plateforme或Le Chat来体验Pixtral 12B的功能。另外,Mistral AI还推出了`mistral-inference`工具,简化了在本地环境中部署Pixtral 12B的过程。同时,用户还可以利用vLLM库来增强服务的处理能力。通过La Plateforme或Le Chat,用户可以轻松试用Pixtral 12B。Mistral AI提供的`mistral-inference`工具让本地运行该模型变得便捷。用户如果希望提升服务的效率,还可以选择采用vLLM库。

• La Plateforme

Pixtral可在La Plateforme上使用。我们可利用Pixtral的通过API调用实现功能,实现各种应用程序和工作流。下面是一个简单的例子。

curl https://api.mistral.ai/v1/chat/completions \

-H "Content-Type: application/json" \ -H "Authorization: Bearer $MISTRAL_API_KEY" \ -d '{ "model": "pixtral-12b-2409", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "What’s in this image?" }, { "type": "image_url", "image_url": "https://tripfixers.com/wp-content/uploads/2019/11/eiffel-tower-with-snow.jpeg" } ] } ], "max_tokens": 300 }'

• mistral-inference

在本地运行Pixtral的最简单方法是使用 mistral-inference。安装 mistral_inference 后,我们可下载模型,加载模型并使用如下代码运行模型。

# download the model

from huggingface_hub import snapshot_downloadfrom pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models', 'Pixtral')mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Pixtral-12B-2409", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)
# load the model from mistral_inference.transformer import Transformerfrom mistral_inference.generate import generate
from mistral_common.tokens.tokenizers.mistral import MistralTokenizerfrom mistral_common.protocol.instruct.messages import UserMessage, TextChunk, ImageURLChunkfrom mistral_common.protocol.instruct.request import ChatCompletionRequest
tokenizer = MistralTokenizer.from_file(f"{mistral_models_path}/tekken.json")model = Transformer.from_folder(mistral_models_path)
# Run the model url = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png"prompt = "Describe the image."
completion_request = ChatCompletionRequest(messages=[UserMessage(content=[ImageURLChunk(image_url=url), TextChunk(text=prompt)])])
encoded = tokenizer.encode_chat_completion(completion_request)
images = encoded.imagestokens = encoded.tokens
out_tokens, _ = generate([tokens], model, images=[images], max_tokens=256, temperature=0.35, eos_id=tokenizer.instruct_tokenizer.tokenizer.eos_id)result = tokenizer.decode(out_tokens[0])
print(result)

• vLLM推理

如果选择在本地提供Pixtral,还可使用 vLLM 框架进行推理,以达到更高的服务吞吐量。下面是简单的用法示例。

from vllm import LLM


from vllm.sampling_params import SamplingParamsmodel_name = "mistralai/Pixtral-12B-2409"sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral")prompt = "Describe this image in one sentence."
image_url = "https://picsum.photos/id/237/200/300"
messages = [ { "role": "user", "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}] },]
outputs = vllm_model.model.chat(messages, sampling_params=sampling_params)print(outputs[0].outputs[0].text)

6、欧洲版OpenAI估值达60亿美元

Mistral AI 是一家销售人工智能产品的法国公司。它由 Meta Platforms 和 Google DeepMind 的前员工于 2023 年 4 月创立。该公司于 2023 年 10 月筹集了 3.85 亿欧元,2023 年 12 月估值超过 20 亿美元。这家法国AI初创公司在业内被称为欧洲版OpenAI。

•Mistral.AI 的愿景与使命

我们是一个具有高科学标准的小型创意团队。我们通过突破性的创新打造开放、高效、有用且值得信赖的人工智能模型。我们的使命是让前沿人工智能无处不在,为所有建设者提供量身定制的人工智能。这需要强烈的独立性,对开放、便携和可定制解决方案的坚定承诺,以及对在有限时间内交付最先进技术的高度关注。

•近期融资情况

最近几个月,Mistral的动作还是非常密集的。今年6月,他们通过股权债务融资完成约6.4亿美元B轮融资。估值已达60亿美元(折合人民币约420亿)。完成融资后,他们便发布了Mistral Large 2旗舰模型、SMoE模型Mistral 8×22B以及开源模型Codestral等。目前,微软、AWS、Snowflake等巨头均投资Mistral。尤其是微软的入股,使得Mistral成为OpenAI以外,微软Azure第二个商业闭源模型供应商。这也进一步夯实了Mistral“欧洲版OpenAI”的地位。

•陷入造假风波

不过,Hugging Face技术负责人Philipp Schmid在第一时间发现,Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。把数据补全到柱状图中后可以看出,Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。也就是说,Mistral AI的首个多模态模型,被一个参数量小了近42%的模型吊打了!此外,还有网友指出他们连模型的名字好像都没写对……

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』
www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

显然,AI界对Pixtral 12B的推出给予了极高的重视和关注。无疑,Pixtral 12B在多模态AI模型领域实现了重大突破,并且将成为未来人工智能应用发展的一个重要风向标。它在多模态任务中的卓越表现以及在文本处理方面的顶尖能力,都预示着它将在人工智能领域扮演越来越关键的角色。我们有理由相信,Pixtral 12B将引领我们进入一个多模态智能的全新时代。

我们致力于视频理解模型私有化部署,视频标注,构筑数据集等方向的产业化发展,服务上市公司

亚太人工智能学会(Asia-Pacific Artificial Intelligence Association)于2021年在香港注册成立。亚太人工智能学会(AAIA)是由全球1908位院士自愿组成的学术性、非营利性、非政府性组织。经过3年多发展,亚太人工智能学会(AAIA)已成为全球顶尖AI学会。

www.zeeklog.com - 震撼!谁是多模态AI王者?欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

【亚太人工智能学会

Read more

黄仁勋公开发文:传统软件开发模式终结,参与AI不必非得拥有计算机博士学位

黄仁勋公开发文:传统软件开发模式终结,参与AI不必非得拥有计算机博士学位

黄仁勋分享全文: AI 是当今塑造世界最强大的力量之一。它并非仅仅是一款巧妙的应用程序,也不是某个单一的模型,而是一种就像电力和互联网一样的基础设施。 AI 依赖真实的硬件、真实的能源以及真实的经济体系运行。它可以把原材料大规模地转化为智能。未来,每家公司都会使用 AI,每个国家/地区都会建设 AI。 要理解 AI 为什么会以这样的方式发展,最好的方法是从第一性原理出发,看看计算领域究竟发生了哪些根本性的变化。 从预先编写的软件,到实时生成的智能 在计算机发展的绝大多数历史中,软件都是预先写好的。人类先描述算法,然后由计算机执行。数据必须被精心组织与设计,存储在表格中,再通过精确的查询进行检索。 因此,SQL 成为不可或缺的工具,因为它让这种计算模式变得可行。 而 AI 打破了这一模式。 我们首次拥有了一台能够理解非结构化信息的计算机。它可以识别图像、阅读文本、理解声音,并理解其中的含义。它能够根据上下文和意图进行推理。更重要的是,它能够实时生成智能。 每一次回答都是全新的。每一次回应都取决于你提供的上下文。这不再是软件从数据库中取出预先存储的指令。而是软件在实时推理

By Ne0inhk
转型AI工程师实战指南

转型AI工程师实战指南

https://github.com/zeeklog/Be-an-AI-engineer-from-any-role 如果帮到你,Plz右上角Star⭐️ 来自 590 家公司的895 条真实JD的数据分析结论: AI 工程师岗位正在疯狂分层——会的人月入翻倍,不会的人正在被时代彻底甩在身后。 现在不行动,你就下一个N+1 🚀 AI 工程师角色 残酷真相:AI 工程师已经彻底变天! 2026 年市场只认一种人:能把 LLM + RAG + Agent 真正上线、能赚钱、能扛住生产压力的 Full-Stack Builder。 岗位类型分布(2026 真实画像) * AI-First(69.4%):直接构建产品核心功能(RAG、智能体、自动化工作流)——做不出来就出局 * AI-Support(28.5%):为全公司搭建 AI

By Ne0inhk