年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩
©作者 | 孔令宇
单位 | 国科大博士生
研究方向 | 多模态学习
Vary 团队去年 12 月在 “Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models” 中指出 CLIP 视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的 OCR 范式。Vary 发布后得到了广泛的关注(目前 Github 1.2k+ star),但也有不少人因为资源受限运行不了。
考虑到目前开源得很好且性能出色的“小” VLM 比较少,该团队又新发布了“年轻人的第一个多模大模型”—— Vary-toy,模型大小不到 2B,在消费级显卡可训练、8G 显存的老显卡可运行,依旧支持中英文!目前代码和模型均已开源,并有在线 demo 试玩。
与 Vary 相比,Vary-toy 除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级 OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级 OCR,还能做通用视觉目标检测。
Vary-toy 这个“小” VLM 几乎涵盖了目前 LVLM 主流研究中的所有能力,如:Document OCR、Visual Grounding、Image Caption、VQA……
“我们希望 Vary-toy 能当好一个结构简单、能力全面、性能可比的 baseline 的角色。希望通过 Vary-toy,能让更多的高校和个人研究者们加入多模态大模型的研究中。无论是初学者,做毕设,还是做算法研究、落地应用,我们相信它会是一个好玩好用的 ‘toy’。”
技术介绍
Vary-toy 的模型结构和训练流程如上图所示,总的来说,训练共分两个阶段。首先在第一阶段,使用 Vary-tiny+ 结构,预训练出一个相比原版 Vary 更好的视觉词表,新的视觉词表解决了原 Vary 只用它做文档级 OCR 的网络容量浪费问题、以及没有充分利用到 SAM 预训练优势的问题。然后在第二阶段中,将第一阶段中训好的视觉词表 merge 到最终结构进行 multi-task training/SFT。
众所周知一个好的数据配比对于产生一个能力全面的 VLM 是至关重要的。因此在预训练阶段,Vary-toy 使用了 5 种任务类型的数据构建对话,数据配比和示例 prompt 如下图所示;而在 SFT 阶段,只使用了 LLaVA-80K 数据。更多的技术细节,可以查看 Vary-toy 的技术报告。
Vary-toy 在 DocVQA、ChartQA、RefCOCO、MMVet 四个 benchmark 的得分如下:
一些可视化的例子如下,
可以看到无论是从 benchmark 评分上还是可视化效果上,不到 2B 的 Vary-toy 甚至能和一些流行的 7B 模型达到性能可比的水平。
虽然作者略带自嘲地将模型起名为 “toy”,但是合适的大小、不错的性能,使得 Vary-toy 可能比我们想象中更有应用潜力。Vary 团队也抛砖引玉,基于 Vary-toy 做了两个非常不错的应用。
我们期待多模态大模型能早日迎来它广泛应用的春天!
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者