年轻人的第一个多模大模型：1080Ti轻松运行，已开源在线可玩

10月前

©作者 | 孔令宇

单位 | 国科大博士生

研究方向 | 多模态学习

Vary 团队去年 12 月在 “Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models” 中指出 CLIP 视觉词表在密集感知能力上的不足，并用一种简单有效的扩充词表方案给出了一种全新的 OCR 范式。Vary 发布后得到了广泛的关注（目前 Github 1.2k+ star），但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小” VLM 比较少，该团队又新发布了“年轻人的第一个多模大模型”—— Vary-toy，模型大小不到 2B，在消费级显卡可训练、8G 显存的老显卡可运行，依旧支持中英文！目前代码和模型均已开源，并有在线 demo 试玩。

与 Vary 相比，Vary-toy 除了小之外，也训练了更强的视觉词表，新的词表不再将模型局限于文档级 OCR，而是给出了一个更加通用和全面的视觉词表，其不仅能做文档级 OCR，还能做通用视觉目标检测。

Vary-toy 这个“小” VLM 几乎涵盖了目前 LVLM 主流研究中的所有能力，如：Document OCR、Visual Grounding、Image Caption、VQA……

“我们希望 Vary-toy 能当好一个结构简单、能力全面、性能可比的 baseline 的角色。希望通过 Vary-toy，能让更多的高校和个人研究者们加入多模态大模型的研究中。无论是初学者，做毕设，还是做算法研究、落地应用，我们相信它会是一个好玩好用的 ‘toy’。”

技术介绍

Vary-toy 的模型结构和训练流程如上图所示，总的来说，训练共分两个阶段。首先在第一阶段，使用 Vary-tiny+ 结构，预训练出一个相比原版 Vary 更好的视觉词表，新的视觉词表解决了原 Vary 只用它做文档级 OCR 的网络容量浪费问题、以及没有充分利用到 SAM 预训练优势的问题。然后在第二阶段中，将第一阶段中训好的视觉词表 merge 到最终结构进行 multi-task training/SFT。

众所周知一个好的数据配比对于产生一个能力全面的 VLM 是至关重要的。因此在预训练阶段，Vary-toy 使用了 5 种任务类型的数据构建对话，数据配比和示例 prompt 如下图所示；而在 SFT 阶段，只使用了 LLaVA-80K 数据。更多的技术细节，可以查看 Vary-toy 的技术报告。