Bendi新闻
>
年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩

10月前

©作者 | 孔令宇

单位 | 国科大博士生

研究方向 | 多模态学习


Vary 团队去年 12 月在 “Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models” 中指出 CLIP 视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的 OCR 范式。Vary 发布后得到了广泛的关注(目前 Github 1.2k+ star),但也有不少人因为资源受限运行不了。


考虑到目前开源得很好且性能出色的“小” VLM 比较少,该团队又新发布了“年轻人的第一个多模大模型”—— Vary-toy,模型大小不到 2B,在消费级显卡可训练、8G 显存的老显卡可运行,依旧支持中英文!目前代码和模型均已开源,并有在线 demo 试玩。

与 Vary 相比,Vary-toy 除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级 OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级 OCR,还能做通用视觉目标检测。


Vary-toy 这个“小” VLM 几乎涵盖了目前 LVLM 主流研究中的所有能力,如:Document OCR、Visual Grounding、Image Caption、VQA……

“我们希望 Vary-toy 能当好一个结构简单、能力全面、性能可比的 baseline 的角色。希望通过 Vary-toy,能让更多的高校和个人研究者们加入多模态大模型的研究中。无论是初学者,做毕设,还是做算法研究、落地应用,我们相信它会是一个好玩好用的 ‘toy’。”



技术介绍

Vary-toy 的模型结构和训练流程如上图所示,总的来说,训练共分两个阶段。首先在第一阶段,使用 Vary-tiny+ 结构,预训练出一个相比原版 Vary 更好的视觉词表,新的视觉词表解决了原 Vary 只用它做文档级 OCR 的网络容量浪费问题、以及没有充分利用到 SAM 预训练优势的问题。然后在第二阶段中,将第一阶段中训好的视觉词表 merge 到最终结构进行 multi-task training/SFT。


众所周知一个好的数据配比对于产生一个能力全面的 VLM 是至关重要的。因此在预训练阶段,Vary-toy 使用了 5 种任务类型的数据构建对话,数据配比和示例 prompt 如下图所示;而在 SFT 阶段,只使用了 LLaVA-80K 数据。更多的技术细节,可以查看 Vary-toy 的技术报告。



性能展示

Vary-toy 在 DocVQA、ChartQA、RefCOCO、MMVet 四个 benchmark 的得分如下:

一些可视化的例子如下,

可以看到无论是从 benchmark 评分上还是可视化效果上,不到 2B 的 Vary-toy 甚至能和一些流行的 7B 模型达到性能可比的水平。


虽然作者略带自嘲地将模型起名为 “toy”,但是合适的大小、不错的性能,使得 Vary-toy 可能比我们想象中更有应用潜力。Vary 团队也抛砖引玉,基于 Vary-toy 做了两个非常不错的应用。


我们期待多模态大模型能早日迎来它广泛应用的春天!


参考链接:
https://zhuanlan.zhihu.com/p/679447793



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了根本玩不过来!在线求一个遛娃搭子:10个周末遛娃好去处Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩在线人数达去年2.4倍!《剑网3》端手互通创新高,玩家:排队离大谱融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决爆款果咖启示录:俘获潮流年轻人,库迪已在Next Level年轻人的闲鱼账号:一种能玩、能赚的新型“电子财产”V23 诞生史:给年轻人造一台大玩具狂砸$5000万!大温又多了一个玩耍好去处!还有更多惊喜!大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?苹果Vision Pro体验:头显天花板实锤,N多玩法开脑洞,然,拔草了阶跃星辰:大模型「new game」里的新玩家一句话手机自己打车,开源多智能体AI助手,非苹果手机也能玩直播预告 | 「在看」即「在做」——《新浪潮:一代年轻人的肖像》“很想停止,但已无法回头”,困在网贷里的年轻人:有人在9个平台借款,8000元债务滚成8万元视频疯传,一年轻女孩在酒店遭多人施暴!警方通报:涉案人员全部抓获多伦多禁止在45座小坡上玩平底雪橇!市议员和民众表达不满:无趣!大城市卷不动的年轻人,正涌向十八线城镇开咖啡馆原来费城年轻人在这些地方扎堆! 费城年轻人友好活动指南, 带你畅玩线下游戏社交!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。