全新 Llama 3.2 系列评测:性能提升明显,但真的是最优选择吗?
Meta 发布了 Llama 3.2 系列模型,当前的基准测试显示,Llama 3.2 在各种基准测试中表现优于 Claude 3.5 Haiku 以及 GPT-4o-mini。加上前几天的 Qwen2.5,开源的模型正在一步步缩小和闭源模型之间的差距。
模型概览
这是 Meta 第一次开源多模态大模型系列,总共有 4 个版本:
- 视觉模型:包含 11B 和 90B 两个版本。其中 90B 可能是目前最大的开源视觉模型之一(此前较大的如 Qwen2 VL 72B)。
- 轻量级模型:包含 1B 和 3B 版本。这些模型专为边缘计算和移动设备优化,支持 128k 令牌上下文,擅长任务如摘要和遵循指令,针对各种处理器进行了优化。
Llama 3.2 作为 Llama 3.1 的替代品,经过优化后速度、准确性提高,特别擅长图像标题生成、视觉问答(VQA),甚至图像文本检索。
在演示中可以看到,Llama 3.2 模型能够准确分析和分类收据数据,随后以表格形式展示结果,这正是其核心优势所在。
技术实现细节
剪枝与蒸馏
轻量级模型(1B 和 3B)是专为设备使用场景设计的。它们通过以下两种主要技术创建:
- 剪枝(Pruning):通过系统地移除网络的一部分来减少模型大小,同时保留性能。这应用于 Llama 3.1 的 80 亿参数模型基础之上。
- 蒸馏(Distillation):涉及从更大模型(如 80 亿和 700 亿参数的 Llama 3.1 系列)向较小模型转移知识。通过在预训练过程中使用大模型的输出作为目标,使新的 10 亿和 30 亿参数模型在保持强性能的同时变得更高效、更紧凑。
这种策略使得开发者能够构建个性化的本地代理应用程序,确保数据始终留在设备上。这也是目前支持工具调用的最小 SLLM(小型语言模型)之一。
基准测试与实测分析
视觉基准
如果我们看看视觉基准,11B 模型的表现类似于 Claude 3.5 Haiku,而 90B 模型的表现则类似于 GPT-4o-mini。它们都支持图像推理用例,比如文档级理解(包括图表和图形)、图像标注以及基于自然语言描述精准定位图像中的物体。
同时,小型模型的表现与 Gemma 2 和 Phi 3.5 相当,虽然没有巨大的突破,但在端侧场景下已足够实用。
实际测试案例
1. OCR 与数据提取
问题:5 片这种产品有多少卡路里? 结果:11B 和 90B 均正确识别并给出答案(约 100 卡路里)。
问题:把上面的第一个基准测试转成 CSV。 结果:两个模型都做到了,且没有数值上的错误。
2. 代码生成能力
问题:使用 HTML, CSS, JS 制作一个精确的副本,将所有代码放在一个文件中。 结果:90B 生成的效果较好,但 11B 生成的代码结构与预期有差异,相似度不高。


