Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B,如今,Pixtral 12B 技术报告全公开。

主页:https://mistral.ai/news/pixtral-12b/
论文地址:https://arxiv.org/abs/2410.07073
开源代码:https://github.com/mistralai
从论文的测试结果来看,Pixtral 12B 明显优于其他类似大小的开源模型(比如 Llama-3.2 11B 和 Qwen-2-VL 7B),甚至在一些评测中,表现比 Meta 家的多模态老大哥 Llama-3.2 90B 还要好。

Mistral AI 发布了最新开源多模态模型 Pixtral Large,该模型基于 Mistral Large 2 构建,展示出强大的图像理解能力,能够理解文档、图表和自然图像,同时还保持了 Mistral Large 2 优秀的纯文本理解能力。
Mistral 的 AI 聊天助手 le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能。
此外,Mistral 还开源了一个新的多模态基准测试 MM-MT-Bench,用于在实际场景中评估视觉语言模型。
开源多模态大模型 Pixtral Large
Pixtral Large 是 Mistral AI 多模态家族中的第二个模型。
Pixtral Large 旨在通过大规模数据训练,提供高效的语言理解和生成能力。它支持中文、法文、英文等十多种主流语言,适用于多种自然语言处理任务,如文本生成、翻译和问答等。
Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。

Pixtral Large 上下文窗口为 128K,至少可以处理 30 张高分辨率图像或大约一本 300 页的书,这相当于领先的 OpenAI GPT 系列模型的能力。
根据测试数据显示:
Pixtral Large 在 MMMU、MathVista、ChartQA、DocVQA、VQAv2 等基准测试的数据,超过了 GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2 90B,成为目前最强的开源多模态模型。
Pixtral Large 在 MM-MT-Bench 上也展示了强有力的竞争力,优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。








