Bendi新闻
>
检测一切!Visual Prompting:视觉提示扩展检测模型能力

检测一切!Visual Prompting:视觉提示扩展检测模型能力

8月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

宣传一下最近我们 做的几个工作,集中在通过视觉提示(visual prompt)来扩展检测模型的能力,例如open-set和counting的English。code/demo/API都已经可用!

DINOv:

论文:arxiv.org/pdf/2311.13601

主页:github.com/UX-Decoder/DINOv


T-Rex:

论文:arxiv.org/abs/2311.13596

主页:github.com/IDEA-Research/T-Rex


T-Rex2: 

论文:arxiv.org/pdf/2403.14610

主页:deepdataspace.com/playground/ivp

DINOv

大型语言模型(LLMs)中的上下文提示(in-context prompting) 已成为提高模型能力的方法,但在视觉领域,这个想法被探索得较少。现有的视觉提示方法专注于refering segmentation来分割最相关的对象,未能解决许多通用视觉任务,如open-set分割和检测

DINOv探索的是通过visual prompt来实现visual in-context learning,例如要检测一个新的物体或者某些难以描述的物体,只需要给模型几个样例,模型就可以在target image里面把想要的物体都检测出来。

T-Rex

T-Rex探索的是通过visual prompt来解决counting问题。counting问题往往比较密集且物体不太好用文本描述,把counting问题转化为检测问题并通过visual prompt能更加高效地处理counting问题。

T-Rex

T-Rex2则进一步把visual prompt和text prompt融合到一个模型里面,进一步提升检测能力。

T-Rex2接受多种格式的输入,包括文本提示、视觉提示以及两者的组合,因此它可以通过在两种提示模式之间切换来处理不同的场景。我们的实验表明,T-Rex2在各种场景下展现出出色的zero-shot目标检测能力。我们展示了文本提示和视觉提示可以在协同作用中相互受益,这对于覆盖大规模且复杂的实际场景至关重要。

欢迎关注!

在CVer公众号后台回复:检测一切,即可下载上面论文和代码,感觉学起来!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


多模态和目标检测交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-多模态和目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

检测一切!Grounding DINO 1.5:最强开集目标检测模型CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折“茅台也能喝死人!”局长称河水污染没必要检测,网友:炸裂!官方通报:免职!感染激增!安省卫生官:立即开始检测!病毒能潜伏21天!小心8大症状!可怕!俄勒冈2400人或「感染艾滋病毒」医院通知:请回来做血液检测!痛心|加拿大27岁女留学生病逝:癌症痛苦折磨!医院检测拖8个月,晚期才确诊!痛惜!安省27岁亚裔留学生病逝:癌症痛苦折磨!医院检测拖8个月...痛心!安省27岁女留学生病逝:癌症痛苦折磨!医院检测拖8个月,晚期才确诊!ECCV 2024 Oral 满分论文!SpikeYOLO:高性能低能耗目标检测网络最新研究:大模型已涌现出欺骗能力!钻漏洞、偷偷篡改奖励函数,GPT-4欺骗人类高达99.16%美国人乱伦喜欢乱伦?基因检测显示:乱伦后代人数翻百倍!医院通知,这些人可以退核酸检测费了!有人退了90元,院方:排队的人非常多有学生用AI代写论文?!多所高校发通知!网友:那最新的GPT-4o你们能检测出来吗?今年首次:橙县蚊子样本西尼罗病毒检测呈阳性!尚无预防疫苗李飞飞亲自撰文:大模型不存在主观感觉能力,多少亿参数都不行!1/23 波士顿新闻总汇 | 警惕!麻州五分之一的家庭检测到高含量的致癌氡气 AI诈骗干扰竞选:居民收到模仿拜登的诈骗电话唯公生物:自主研发三类淋巴细胞亚群检测试剂(流式细胞仪法)全新上市! 【动脉严选新品鉴第61期】只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务加州人必看!加州新政:7月1日起,酒吧夜总会须提供药物检测试剂盒专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法黄仁勋加州理工毕业典礼演讲:我忍受的一切挫折、痛苦和磨难淬炼了超能力!复旦大学:没钱标数据的有福了!利用合成数据就能大幅提升大模型归纳推理能力病毒爆发!中国未来6个月对入境人员进行检测!加州华人“发国难财”赚百万美金或判28年
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。