Vary-toy:轻量级多模态大模型
在之前的 Vary 项目中,我们曾指出 CLIP 视觉词表在密集感知能力上的不足,并提出了一种扩充方案。虽然 Vary 获得了广泛关注,但资源受限环境下的运行门槛依然较高。
针对目前开源且性能出色的小型视觉语言模型(VLM)较少的问题,我们发布了 1.8B Vary-toy。这是一个专为高校和个人研究者设计的轻量级多模态大模型,旨在降低多模态研究的门槛,同时支持中文和英文。
核心优化
与原版 Vary 相比,Vary-toy 不仅体积更小,还重点优化了视觉词表网络。这一改进解决了原版本仅使用新视觉词表进行 PDF OCR 时存在的网络容量浪费问题,并更好地利用了 SAM 预训练的优势。新的视觉词表不仅能处理 PDF-level OCR,还能胜任通用视觉目标检测任务。
该模型设计为结构简单、能力全面且性能可比的基线(baseline)。它几乎涵盖了当前大型视觉语言模型(LVLM)的主流研究能力,包括文档 OCR、视觉定位(Visual Grounding)、图像描述(Image Caption)及视觉问答(VQA)等。即便在 8G 显存的老旧显卡上也能运行,消费级显卡如 1080Ti 亦可轻松训练。
技术报告详见:Small Language Model Meets with Reinforced Vision Vocabulary

技术架构与训练流程
Vary-toy 的模型结构和训练流程大体继承了 Vary 体系,采用 Vary-tiny+ 结构。主要流程分为两个阶段:
- 预训练(Pretrain):训练出一个更优质的视觉词表。
- 微调(SFT):将训好的视觉词表 Merge 到最终结构中,进行多任务训练或监督微调。
数据配比对于产生能力全面的 VLM 至关重要。在预训练阶段,我们使用了 5 种任务类型的数据构建对话;而在 SFT 阶段,则专注于 LLaVA-80K 数据。

性能表现
在 DocVQA、ChartQA、RefCOCO、MMVet 四个基准测试中,Vary-toy 的表现如下:





