全新 Llama 3.2 系列评测：性能提升明显，但真的是最优选择吗？

Meta 发布了 Llama 3.2 系列模型，当前的基准测试显示，Llama 3.2 在各种基准测试中表现优于 Claude 3.5 Haiku 以及 GPT-4o-mini。加上前几天的 Qwen2.5，开源的模型正在一步步缩小和闭源模型之间的差距。

这是 Meta 第一次开源多模态大模型系列，总共有 4 个版本：

视觉模型：包含 11B 和 90B 两个版本。其中 90B 可能是目前最大的开源视觉模型之一（此前较大的如 Qwen2 VL 72B）。
轻量级模型：包含 1B 和 3B 版本。这些模型专为边缘计算和移动设备优化，支持 128k 令牌上下文，擅长任务如摘要和遵循指令，针对各种处理器进行了优化。

Llama 3.2 作为 Llama 3.1 的替代品，经过优化后速度、准确性提高，特别擅长图像标题生成、视觉问答（VQA），甚至图像文本检索。

在演示中可以看到，Llama 3.2 模型能够准确分析和分类收据数据，随后以表格形式展示结果，这正是其核心优势所在。

轻量级模型（1B 和 3B）是专为设备使用场景设计的。它们通过以下两种主要技术创建：

剪枝（Pruning）：通过系统地移除网络的一部分来减少模型大小，同时保留性能。这应用于 Llama 3.1 的 80 亿参数模型基础之上。
蒸馏（Distillation）：涉及从更大模型（如 80 亿和 700 亿参数的 Llama 3.1 系列）向较小模型转移知识。通过在预训练过程中使用大模型的输出作为目标，使新的 10 亿和 30 亿参数模型在保持强性能的同时变得更高效、更紧凑。

这种策略使得开发者能够构建个性化的本地代理应用程序，确保数据始终留在设备上。这也是目前支持工具调用的最小 SLLM（小型语言模型）之一。

如果我们看看视觉基准，11B 模型的表现类似于 Claude 3.5 Haiku，而 90B 模型的表现则类似于 GPT-4o-mini。它们都支持图像推理用例，比如文档级理解（包括图表和图形）、图像标注以及基于自然语言描述精准定位图像中的物体。

同时，小型模型的表现与 Gemma 2 和 Phi 3.5 相当，虽然没有巨大的突破，但在端侧场景下已足够实用。

问题：5 片这种产品有多少卡路里？结果：11B 和 90B 均正确识别并给出答案（约 100 卡路里）。

问题：把上面的第一个基准测试转成 CSV。结果：两个模型都做到了，且没有数值上的错误。

问题：使用 HTML, CSS, JS 制作一个精确的副本，将所有代码放在一个文件中。结果：90B 生成的效果较好，但 11B 生成的代码结构与预期有差异，相似度不高。