全新 Llama 3.2 系列评测:性能提升明显,但真的是最优选择吗?
Meta 发布了 Llama 3.2 系列模型,当前的基准测试显示,Llama 3.2 在各种基准测试中表现优于 Claude 3.5 Haiku 以及 GPT-4o-mini。加上前几天的 Qwen2.5,开源的模型正在一步步缩小和闭源模型之间的差距。
模型概览
这是 Meta 第一次开源多模态大模型系列,总共有 4 个版本:
- 视觉模型:包含 11B 和 90B 两个版本。其中 90B 可能是目前最大的开源视觉模型之一(此前较大的如 Qwen2 VL 72B)。
- 轻量级模型:包含 1B 和 3B 版本。这些模型专为边缘计算和移动设备优化,支持 128k 令牌上下文,擅长任务如摘要和遵循指令,针对各种处理器进行了优化。

Llama 3.2 作为 Llama 3.1 的替代品,经过优化后速度、准确性提高,特别擅长图像标题生成、视觉问答(VQA),甚至图像文本检索。
在演示中可以看到,Llama 3.2 模型能够准确分析和分类收据数据,随后以表格形式展示结果,这正是其核心优势所在。
技术实现细节
剪枝与蒸馏
轻量级模型(1B 和 3B)是专为设备使用场景设计的。它们通过以下两种主要技术创建:
- 剪枝(Pruning):通过系统地移除网络的一部分来减少模型大小,同时保留性能。这应用于 Llama 3.1 的 80 亿参数模型基础之上。
- 蒸馏(Distillation):涉及从更大模型(如 80 亿和 700 亿参数的 Llama 3.1 系列)向较小模型转移知识。通过在预训练过程中使用大模型的输出作为目标,使新的 10 亿和 30 亿参数模型在保持强性能的同时变得更高效、更紧凑。
这种策略使得开发者能够构建个性化的本地代理应用程序,确保数据始终留在设备上。这也是目前支持工具调用的最小 SLLM(小型语言模型)之一。
基准测试与实测分析
视觉基准
如果我们看看视觉基准,11B 模型的表现类似于 Claude 3.5 Haiku,而 90B 模型的表现则类似于 GPT-4o-mini。它们都支持图像推理用例,比如文档级理解(包括图表和图形)、图像标注以及基于自然语言描述精准定位图像中的物体。

同时,小型模型的表现与 Gemma 2 和 Phi 3.5 相当,虽然没有巨大的突破,但在端侧场景下已足够实用。

实际测试案例
1. OCR 与数据提取
问题:5 片这种产品有多少卡路里?
结果:11B 和 90B 均正确识别并给出答案(约 100 卡路里)。
问题:把上面的第一个基准测试转成 CSV。
结果:两个模型都做到了,且没有数值上的错误。

2. 代码生成能力
问题:使用 HTML, CSS, JS 制作一个精确的副本,将所有代码放在一个文件中。
结果:90B 生成的效果较好,但 11B 生成的代码结构与预期有差异,相似度不高。

3. 复杂视觉推理
问题:图片里有多少种水果?哪种水果最小,哪种水果最酸?它们具体放在哪里?
结果:
- 90B:识别出 6 种水果(实际为 7 种),位置描述基本正确,但对'最小'和'最酸'的判断有误(葡萄最小,柠檬最酸)。
- 11B:回答较为敷衍,虽然包含正确答案元素,但逻辑混乱(如将位置说反),存在明显的幻觉现象。

连续两轮测试 90B 发现,位置能找到(甚至能精确到行列数),但数量摇摆不定,关于酸度、大小的认知仍有偏差。
4. 验证码与手写识别
问题:识别图片中的两个问题(验证码类型)。
结果:
- 11B:误识别了无关物体(如紫茄子),区分能力较弱。
- 90B:同样出错,但比 11B 稍微稳定一些。
OCR 识别手稿:
- 11B & 90B:两者识别都比较完美,堪比我本地的专业 OCR 工具。

综合对比与结论
总的来说,虽然这几款模型都还不错,回答一些问题中也表现了一些较理想的效果,但在测试过程中发现 Llama 3.2 对于问题的审查很严格,好几次让它创建其他网页截图代码都不通过,或者其他有关的图片问题直接不回答。
Qwen 2 VL 72B 与 Llama 3.2 90B 模型相当,意味着一个更小的模型可以做到 90B 所做的事情,而且它的审查更少。11B 模型相对而言幻觉更多,部分竞品在这个领域要好得多,甚至 Qwen 2 VL 7B 也更好。
部署建议
- 端侧应用:1B 和 3B 模型非常适合移动端或嵌入式设备,得益于蒸馏技术,它们在资源受限环境下仍能保持不错的指令遵循能力。
- 云端推理:90B 模型适合需要高精度视觉理解的云端服务,但需注意显存占用和推理延迟。
- 混合架构:对于复杂任务,可考虑使用 11B 处理常规请求,遇到高难度视觉任务时路由至 90B 或 Qwen 2 VL。
最终评价
Qwen 2 VL 72B 可能仍然是视觉任务的最佳模型,Llama 3.2 这些模型还不够好,而且它们比竞争对手大,却提供较低的结果。当然,你可以去做更多的测试,根据具体业务场景选择最适合的模型。
