OLMo 2 与 SmolVLM：开源透明与轻量级多模态模型的技术解析

大模型领域的发展日新月异，每天都有许多有趣的论文值得深入品读。本期重点分析两篇具有代表性的技术论文：OLMo 2 在开放科学领域的突破，以及 SmolVLM 在极致轻量级多模态模型上的创新。

OLMo 2：全透明开放科学的里程碑

在人工智能的开放科学进程中，OLMo 2 的发布无疑是一个里程碑式的突破。这个由艾伦人工智能研究所（AI2）推出的语言模型家族，不仅在性能上与闭源模型展开正面对决，更重要的是，它完全遵循开放科学的理念：从模型权重、训练数据、代码到训练配方，所有细节都做到了前所未有的透明。

模型规模与性能表现

OLMo 2 推出了 7B 和 13B 两个规模的模型，通过在高达 5 万亿个 tokens 上的精心训练，实现了令人瞩目的性能突破。最令人惊叹的是，它在多个学术基准测试中不仅与同等规模的开源模型持平，甚至超越了一些知名的闭源模型。以 OLMo 2 7B 为例，它在性能上已经超越了 Llama-3.1 8B，而 OLMo 2 13B 更是超越了 Qwen 2.5 7B，尽管后者的总训练计算量更高。这背后是研究团队在训练稳定性、分阶段训练、后训练调优等多个关键环节的创新性突破。

评估体系的严谨性

为了确保模型的全面可靠性，研究团队还构建了一个名为 OLMES（开放语言模型评估系统）的创新性评估框架。这个包含 20 个基准测试的评估体系，全面覆盖了知识召回、常识推理、数学推理等多个核心能力维度。更值得称道的是，研究团队还保留了一组'未见'的评测任务，以确保模型评估的公平性和客观性，这种严谨的科学精神在当前快速发展的 AI 领域尤为难得。

开放科学范式的意义

OLMo 2 不仅是一个模型，更是开放 AI 科学的一面旗帜。通过完全透明的训练过程和开放的研究方法，它向整个 AI 社区展示了一种全新的模型开发范式：不再依赖封闭的'黑盒'技术，而是通过开放、协作和可复现的方式推动技术进步。这不仅是技术创新，更是开放科学精神在人工智能领域的生动实践。对于开发者而言，这意味着可以更深入地理解模型内部机制，进行针对性的优化和调试，从而加速整个生态的技术迭代。

论文标题：OLMo 2: The best fully open language model to date 论文链接：https://allenai.org/blog/olmo2

SmolVLM：极致轻量级的多模态突破

在人工智能的快速发展浪潮中，多模态模型正变得越来越庞大和复杂。然而，SmolVLM 用一种出人意料的方式打破了这一常态：一个仅 2B 规模的视觉语言模型，不仅性能惊人，更以其极致的轻量级和高效性引领了一场'小即是美'的技术革命。这个模型用最小的计算成本，实现了令人瞩目的多模态理解能力，为资源受限的场景开辟了全新的可能性。

架构优化的核心创新

SmolVLM 的核心创新在于其极致的架构优化。研究团队通过创新性地压缩视觉信息（将图像信息压缩 9 倍）、选用更轻量的语言模型 backbone（SmolLM2 1.7B）和独特的像素重组策略，让这个小模型在多个基准测试中展现出令人惊叹的性能。这种设计思路直接针对了传统多模态模型显存占用高、推理速度慢的痛点。

资源效率与推理速度

以 GPU 内存使用为例，SmolVLM 仅需 5.02GB 显存，相比 Qwen2-VL 2B 的 13.7GB，几乎减少了 60% 的资源消耗。更令人兴奋的是，在推理速度上，SmolVLM 比 Qwen2-VL 快 3.3-4.5 倍，生成吞吐量甚至高出 7.5-16 倍。这意味着在边缘设备或低配置服务器上部署多模态应用成为可能，极大地降低了 AI 落地的门槛。

基准测试中的竞争力

性能数据更是让人震撼：在多个权威基准测试中，SmolVLM 展现出惊人的竞争力。它在 DocVQA 文档问答任务中取得了 81.6% 的准确率，在 TextVQA 任务中达到 72.7%。尤其是在视频理解领域，这个小模型通过简单却巧妙的帧抽样策略，在 CinePile 基准测试中取得了 27.14% 的成绩，性能 positioning 于 InterVL2 和 Video LlaVa 之间，堪称是计算资源受限场景的绝佳选择。

开放性与可复制性

最后，SmolVLM 最令人印象深刻的是其开放性和可复制性。研究团队不仅开源了模型检查点、训练数据集和训练配方，还提供了完整的 Apache 2.0 许可证。这意味着从研究人员到开发者，每个人都可以自由使用、修改和部署这个模型。在一个被大型、封闭模型主导的 AI 世界里，SmolVLM 用实际行动诠释了开放科技的力量：小模型，大未来！

论文标题：SmolVLM - small yet mighty Vision Language Model ：