unity

震撼！谁是多模态AI王者？欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

Ne0inhk

25 Dec 2024 — 14 min read

震撼！谁是多模态AI王者？欧洲版OpenAI全球首发多模态大模型『Pixtral 12B』

原创邱维明、一菲 2024年10月16日 18:13上海

知全球AI热点关注我们

# Pixtral 12B #

在AI领域，多模态模型正日益受到关注，并成为研究和开发的新焦点。这类模型不仅具备处理文本信息的能力，还能对图像进行理解和创造，为不同应用领域开辟了新的应用前景。近期，Mistral AI实验室公布了其最新研究成果——Pixtral 12B，这一多模态模型标志着重要的技术进步，目标是取代Mistral Nemo 12B。Pixtral 12B同时具备语言和视觉处理能力，是Mistral AI发布的首个多模态AI大语言模型，具有120亿参数和24GB的大小。这是一款具有里程碑意义的多模态大语言模型，标志着 AI 技术在理解和生成多模态内容方面迈出重要一步。

全球视频理解模型应用

，赞 4

Pixtral 12B建立在文本模型Nemo 12B基础上，包含一个专门的视觉编码器。

大概24GB，原生支持任意数量和尺寸的图像，大约有40层神经网络、14,336 个隐藏维度大小和32个注意力头，以及一个专用的视觉编码器，支持高分辨率图像（1024×1024）处理。

Pixtral 12B的发布形式是简单直接一个种子链，现在可通过链接、GitHub或Hugging Face下载模型，模型代码由社区开发者上传。

代码地址：https://huggingface.co/mistral-community/pixtral-12b-240910

Mistral的开发主管表示后续也会在Chatbot上接入模型，并提供API服务。

与此同时，还有人在放出Mistral发布会上公布的模型基准情况。Pixtral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了对比。多模态知识和推理、QA等方面都表现不错。

接下来，本文将探索Pixtral 12B的核心特性、表现效果以及其技术架构的奥秘。

1、核心特性

多模态处理能力：Pixtral 12B能够理解自然图像和文档，其在MMMU推理基准测试中达到了52.5%的准确率，超越了许多更大的模型 Pixtral 12B 能够理解自然图像和文档，在 MMMU 推理基准测试中表现出色，超越了许多参数规模更大的模型。

灵活的图像处理：模型原生支持任意数量和尺寸的图像，用户可以图像的自然分辨率和宽高比输入图像，模型能够灵活处理任意数量的图像，提供了很大的灵活性。

长上下文窗口：Pixtral 12B拥有128K tokens的长上下文窗口，可以处理多张图像，Pixtral 12B 能够处理包含多张图像的大型文档。

开源许可：Pixtral 12B 采用 Apache 2.0 许可，允许用户在 La Plateforme 或 Le Chat 上尝试使用，同时也可以在符合许可证的情况下进行商业使用。

强大的性能表现：在多模态推理方面，Pixtral 12B 提供了最佳的多模态推理能力，同时在关键文本任务上也表现优异，如遵循指令、编码和数学计算等。

先进的架构设计：包括一个全新的 400M 参数视觉编码器和基于 Mistral Nemo 的 12B 参数多模态解码器，支持可变图像尺寸，无需预处理即可将图像直接转换为模型可以理解的 tokens。

高效的视觉处理：Pixtral 12B 能够快速处理小图像，并且能够准确理解高分辨率的复杂图像，如图表、文档等。

2、性能表现

多模态推理方面，Pixtral 12B 提供最佳的多模态推理能力，在不牺牲关键文本能力（如遵循指令、编码和数学计算）的前提下，提供了最佳的多模态推理能力。在与封闭和更大的多模态模型的比较中，Pixtral 12B在许多情况下都超越了它们。同时，在关键文本任务上也表现优异，如遵循指令、编码和数学计算等。

三、架构亮点

Pixtral 12B的架构是其卓越性能的基石，它包括一个全新的400M参数视觉编码器和基于Mistral Nemo的12B参数多模态解码器。这一设计使得模型能够以原生分辨率处理图像，同时保持快速的推理速度。

1、可变图像尺寸

Pixtral 12B的设计哲学是优化速度与性能的完美结合。它训练了一个新的视觉编码器，原生支持可变图像大小，能够将图像直接转换为模型可以理解的tokens，而无需任何预处理。

3、架构亮点

Pixtral 12B模型的架构是其高性能的核心所在。该架构融合了一款创新的400M参数视觉编码器，以及基于Mistral Nemo架构的12B参数多模态解码器。这种设计使得模型具备在原始分辨率下处理图像的能力，同时确保了高效的推理速度。 12B通过其独特的结构设计，实现了对高清图像的高效处理，同时保持了快速响应的特性。Pixtral 12B的架构是其卓越性能的基石。

♥可变图像尺寸

Pixtral 12B的设计理念致力于实现速度与效能的最佳平衡。该模型开发了一个先进的视觉编码器，它天然适配不同尺寸的图像，能够将输入的图像直接转换成模型能够识别的符号（tokens），整个过程无需进行任何形式的图像预处理。Pixtral 12B的设计宗旨在于通过其创新的视觉编码器，无缝地处理不同分辨率的图像，并直接将其编码为模型内部语言，从而在保持处理效率的同时，提升了整体的性能表现。

♥架构能力

Pixtral 12B模型由两个关键部分组成：一是视觉编码器，二是多模态Transformer解码器。这种结构设计使得模型具备了处理各种数量及尺寸图像的能力，并且能够在包含128K tokens的大型上下文窗口中，维持高效的文本处理效能。换句话说，Pixtral 12B通过其视觉编码器和多模态Transformer解码器的结合，实现了对图像的灵活处理，无论图像的数量和大小如何，同时确保了在处理大量文本信息时的效率。

4、定性示例

Pixtral 12B在应对复杂的图形分析、图表解读、多图像指令执行以及图像至代码转换的任务上展现了非凡的技能。比如，它能够依据图表中的数据指出欧洲GDP排名前五的国家，或者根据所提供的图像内容生成相应的HTML代码。换句话说，Pixtral 12B在解析繁复图形、理解图表信息、遵循涉及多张图像的指令以及将图像内容转换成编程代码等方面展现了其高超的能力。

•复杂数字的推理

Prompt:

List the top 5 countries in Europe with the highest GDP

Response:

The top 5 countries in Europe with the highest GDP, based on the image, are:

1.Germany

·GDP: $3.99 trillion

·Percentage: 4.65%

2.United Kingdom

·GDP: $2.82 trillion

·Percentage: 3.29%

3.France

·GDP: $2.78 trillion

·Percentage: 3.24%

4.Italy

·GDP: $2.07 trillion

·Percentage: 2.42%

5.Spain

·GDP: $1.43 trillion

·Percentage: 1.66%

These countries are highlighted in green on the diagram.

•图表理解和分析

Prompt:

When did things start to go wrong for dark dragon?

Response:

The image is a line graph titled 'train/loss' that shows the training loss over steps for four different models: dark-dragon-50, dainty-sunset-49, different-haze-34, and morning-field-33. The x-axis represents the steps, ranging from 0 to 60k, and the y-axis represents the loss on a logarithmic scale from 1e-5 to 1e+5.

To determine when things started to go wrong for the dark-dragon-50 model, we need to look at the red line representing this model. Initially, the loss decreases, indicating that the model is learning effectively. However, around the 10k step mark, the loss starts to spike significantly. This spike indicates that the model's performance is deteriorating. The loss continues to spike and fluctuate, reaching very high values, which suggests that the model is not learning effectively and is likely overfitting or encountering other issues.

Therefore, the critical point where things started to go wrong for the dark-dragon-50 model is around the 10k step mark.

5、如何使用Pixtral？

用户可以方便地通过La Plateforme或Le Chat来体验Pixtral 12B的功能。另外，Mistral AI还推出了`mistral-inference`工具，简化了在本地环境中部署Pixtral 12B的过程。同时，用户还可以利用vLLM库来增强服务的处理能力。通过La Plateforme或Le Chat，用户可以轻松试用Pixtral 12B。Mistral AI提供的`mistral-inference`工具让本地运行该模型变得便捷。用户如果希望提升服务的效率，还可以选择采用vLLM库。

• La Plateforme

Pixtral可在La Plateforme上使用。我们可利用Pixtral的通过API调用实现功能，实现各种应用程序和工作流。下面是一个简单的例子。

curl https://api.mistral.ai/v1/chat/completions \

-H "Content-Type: application/json" \ -H "Authorization: Bearer $MISTRAL_API_KEY" \ -d '{ "model": "pixtral-12b-2409", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "What’s in this image?" }, { "type": "image_url", "image_url": "https://tripfixers.com/wp-content/uploads/2019/11/eiffel-tower-with-snow.jpeg" } ] } ], "max_tokens": 300 }'

• mistral-inference

在本地运行Pixtral的最简单方法是使用 mistral-inference。安装 mistral_inference 后，我们可下载模型，加载模型并使用如下代码运行模型。

# download the model

from huggingface_hub import snapshot_downloadfrom pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models', 'Pixtral')mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Pixtral-12B-2409", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)
# load the model from mistral_inference.transformer import Transformerfrom mistral_inference.generate import generate
from mistral_common.tokens.tokenizers.mistral import MistralTokenizerfrom mistral_common.protocol.instruct.messages import UserMessage, TextChunk, ImageURLChunkfrom mistral_common.protocol.instruct.request import ChatCompletionRequest
tokenizer = MistralTokenizer.from_file(f"{mistral_models_path}/tekken.json")model = Transformer.from_folder(mistral_models_path)
# Run the model url = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png"prompt = "Describe the image."
completion_request = ChatCompletionRequest(messages=[UserMessage(content=[ImageURLChunk(image_url=url), TextChunk(text=prompt)])])
encoded = tokenizer.encode_chat_completion(completion_request)
images = encoded.imagestokens = encoded.tokens
out_tokens, _ = generate([tokens], model, images=[images], max_tokens=256, temperature=0.35, eos_id=tokenizer.instruct_tokenizer.tokenizer.eos_id)result = tokenizer.decode(out_tokens[0])
print(result)

• vLLM推理

如果选择在本地提供Pixtral，还可使用 vLLM 框架进行推理，以达到更高的服务吞吐量。下面是简单的用法示例。

from vllm import LLM

from vllm.sampling_params import SamplingParamsmodel_name = "mistralai/Pixtral-12B-2409"sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral")prompt = "Describe this image in one sentence."
image_url = "https://picsum.photos/id/237/200/300"
messages = [ { "role": "user", "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}] },]
outputs = vllm_model.model.chat(messages, sampling_params=sampling_params)print(outputs[0].outputs[0].text)

6、欧洲版OpenAI估值达60亿美元

Mistral AI 是一家销售人工智能产品的法国公司。它由 Meta Platforms 和 Google DeepMind 的前员工于 2023 年 4 月创立。该公司于 2023 年 10 月筹集了 3.85 亿欧元，2023 年 12 月估值超过 20 亿美元。这家法国AI初创公司在业内被称为欧洲版OpenAI。

•Mistral.AI 的愿景与使命

我们是一个具有高科学标准的小型创意团队。我们通过突破性的创新打造开放、高效、有用且值得信赖的人工智能模型。我们的使命是让前沿人工智能无处不在，为所有建设者提供量身定制的人工智能。这需要强烈的独立性，对开放、便携和可定制解决方案的坚定承诺，以及对在有限时间内交付最先进技术的高度关注。

•近期融资情况

最近几个月，Mistral的动作还是非常密集的。今年6月，他们通过股权债务融资完成约6.4亿美元B轮融资。估值已达60亿美元（折合人民币约420亿）。完成融资后，他们便发布了Mistral Large 2旗舰模型、SMoE模型Mistral 8×22B以及开源模型Codestral等。目前，微软、AWS、Snowflake等巨头均投资Mistral。尤其是微软的入股，使得Mistral成为OpenAI以外，微软Azure第二个商业闭源模型供应商。这也进一步夯实了Mistral“欧洲版OpenAI”的地位。

•陷入造假风波

不过，Hugging Face技术负责人Philipp Schmid在第一时间发现，Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。把数据补全到柱状图中后可以看出，Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。也就是说，Mistral AI的首个多模态模型，被一个参数量小了近42%的模型吊打了！此外，还有网友指出他们连模型的名字好像都没写对……

显然，AI界对Pixtral 12B的推出给予了极高的重视和关注。无疑，Pixtral 12B在多模态AI模型领域实现了重大突破，并且将成为未来人工智能应用发展的一个重要风向标。它在多模态任务中的卓越表现以及在文本处理方面的顶尖能力，都预示着它将在人工智能领域扮演越来越关键的角色。我们有理由相信，Pixtral 12B将引领我们进入一个多模态智能的全新时代。

我们致力于视频理解模型私有化部署，视频标注，构筑数据集等方向的产业化发展，服务上市公司

亚太人工智能学会(Asia-Pacific Artificial Intelligence Association)于2021年在香港注册成立。亚太人工智能学会(AAIA)是由全球1908位院士自愿组成的学术性、非营利性、非政府性组织。经过3年多发展，亚太人工智能学会（AAIA）已成为全球顶尖AI学会。