Vary-toy：轻量级多模态大模型与消费级显卡部署实践

Vary-toy：轻量级多模态大模型

在之前的 Vary 项目中，我们曾指出 CLIP 视觉词表在密集感知能力上的不足，并提出了一种扩充方案。虽然 Vary 获得了广泛关注，但资源受限环境下的运行门槛依然较高。

针对目前开源且性能出色的小型视觉语言模型（VLM）较少的问题，我们发布了 1.8B Vary-toy。这是一个专为高校和个人研究者设计的轻量级多模态大模型，旨在降低多模态研究的门槛，同时支持中文和英文。

核心优化

与原版 Vary 相比，Vary-toy 不仅体积更小，还重点优化了视觉词表网络。这一改进解决了原版本仅使用新视觉词表进行 PDF OCR 时存在的网络容量浪费问题，并更好地利用了 SAM 预训练的优势。新的视觉词表不仅能处理 PDF-level OCR，还能胜任通用视觉目标检测任务。

该模型设计为结构简单、能力全面且性能可比的基线（baseline）。它几乎涵盖了当前大型视觉语言模型（LVLM）的主流研究能力，包括文档 OCR、视觉定位（Visual Grounding）、图像描述（Image Caption）及视觉问答（VQA）等。即便在 8G 显存的老旧显卡上也能运行，消费级显卡如 1080Ti 亦可轻松训练。

技术报告详见：Small Language Model Meets with Reinforced Vision Vocabulary

Vary-toy 模型结构图