Bendi新闻
>
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

11月前
Vary-toy团队 投稿
量子位 | 公众号 QbitAI

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503

[3]https://varytoy.github.io/

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了根本玩不过来!在线求一个遛娃搭子:10个周末遛娃好去处Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩在线人数达去年2.4倍!《剑网3》端手互通创新高,玩家:排队离大谱告别偏科,能玩转多模态、多任务、多领域的强化智能体终于来了融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决爆款果咖启示录:俘获潮流年轻人,库迪已在Next Level年轻人的闲鱼账号:一种能玩、能赚的新型“电子财产”V23 诞生史:给年轻人造一台大玩具狂砸$5000万!大温又多了一个玩耍好去处!还有更多惊喜!大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?苹果Vision Pro体验:头显天花板实锤,N多玩法开脑洞,然,拔草了阶跃星辰:大模型「new game」里的新玩家一句话手机自己打车,开源多智能体AI助手,非苹果手机也能玩直播预告 | 「在看」即「在做」——《新浪潮:一代年轻人的肖像》“很想停止,但已无法回头”,困在网贷里的年轻人:有人在9个平台借款,8000元债务滚成8万元视频疯传,一年轻女孩在酒店遭多人施暴!警方通报:涉案人员全部抓获与死亡打交道的年轻人:每年处理600多具尸体、月薪不到七千是常态!但变化正在发生→最懂年轻人的《你好,星期六》 :共情主流价值年轻态
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。