Bendi新闻
>
顶刊IJCV 2024!通过提问学习基于知识的新物体识别

顶刊IJCV 2024!通过提问学习基于知识的新物体识别

7月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!


作者:凤凰AI

https://zhuanlan.zhihu.com/p/677841513

在现实世界的物体识别中,有大量的物体类别需要识别。传统的基于监督学习的图像识别方法只能识别训练数据中存在的目标类别,在现实世界中的适用性有限。另一方面,人类可以通过提问和获取关于它们的知识来识别新物体。受此启发,本文研究了一种通过问题生成获取外部知识的框架,可帮助模型立即识别新对象。该流程由两部分组成:目标分类器和问题生成器,前者用于进行基于知识的目标识别,后者用于生成知识感知的问题以获取新知识。本文还提出了一种基于目标分类器知识感知预测置信度的问题生成策略。为了训练问题生成器,构建了一个数据集,其中包含关于图像中物体的知识感知问题。实验表明,与几个基线相比,所提出的管道有效地获取了关于新对象的知识。

目标类别识别一直是计算机视觉研究的核心问题。传统上,目标识别是通过使用图像标签对的大型数据集进行监督学习来解决的。然而,使用有监督的方法,该模型只能识别一组固定的对象类别,不适用于存在大量对象类别的现实世界的对象识别。最近,出现了利用图像-文本对数据集基于对比学习的图像识别方法。通过对数亿个图像-文本对进行训练,这些模型已经获得了卓越的零样本识别能力用于各种各样的物体。然而,这些模型可以识别预训练数据集中常见的物体,但对于稀有物体却不那么有效。考虑到数据收集和计算的成本,收集新数据并重新训练整个模型以使这些模型识别新对象是不切实际的。因此,开发一种方法至关重要,该方法使模型能够识别新对象,同时保持低数据收集成本,并尽可能避免模型重新训练。

当人类获得关于世界的知识时,提出问题和明确地获取知识是涉及的重要技能。受此启发,探索了通过提问来动态增加图像识别知识的方法。与传统的监督学习方法相比,该方法有以下几个优点:(1)由于系统只获取它需要的知识,因此获取知识只需要少量的数据;(2)由于系统本身寻找所需的数据,因此数据收集成本较低。

本文提出了一个由基于知识的目标分类器(OC)和问题生成器(QG)组成的管道,用于知识获取。根据之前对结构化知识的研究,将知识表示为知识三元组,即由三个单词或短语组成的列表:头、关系和尾,如<dog、IsA、mammali>。训练OC从知识源中检索知识,输出知识源中相应的头作为预测的目标类(例如,< IsA,哺乳动物> !狗)。然后,QG模型生成问题,将新知识添加到知识源,以实现新物体识别。在QG模型中,我们在问题生成中使用了两种模式:确认和探索,如图1所示。首先,当未知对象与a比较接近时,使用“确认”已知对象类别。例如,如果模型知道"狗",那么一个新类别"吉娃娃"被认为是与"狗"接近的概念。在这种情况下,模型可以推断出合理的知识(例如,"吉娃娃"和"狗"都是一种哺乳动物),并提出问题来确认,例如"图像左侧的哺乳动物是什么? "相比之下,“探索”模式用于未知物体距离现有物体类别很远(例如,“泰迪熊”可能不像任何已知的物体类别)。在这种情况下,模型无法估计适当的知识,并试图通过提问(“坐在狗旁边的物体是什么做的?”)来获得所有必要的知识。

图1

本文的贡献和发现可以总结如下:提出了一种新的管道,通过提问来获取关于新对象的知识。

我们设计了基于CLIP的OC模型和作为Transformer的QG模型的文本生成模型。

我们构建了一个新的数据集来训练QG模型,即Professional K-VQG。该数据集包含各种注释,如对象标签、边界框、知识和知识感知问题。

将所提出的管道与几个基线进行了比较,表明通过问题生成获得的知识对新目标识别是有效的。

该系统由一个对象分类器(OC)和一个问题生成器(QG)组成。首先,我们描述系统的整体管道(图2)。然后,我们在以下部分中描述每个模块的细节。

图2

QG模型负责生成关于图像中物体的问题,并获取对新物体有用的知识识别。为此,我们用部分知识来约束QG,这掩盖了部分知识。

一旦得到生成问题的答案,将获得的知识 K' 添加到模型的原始知识源K中,OC的知识源更新为 K+ = K+ K' 。然后,在下一个推理阶段,OC根据更新后的知识源K+对知识和标签进行预测。

图3

图4

图5,图6

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

顶刊IJCV 2024!基于概率表征的半监督对比学习框架顶刊TPAMI 2024!清华提出ProCo,无限Contrastive Pairs的长尾对比学习顶刊IJCV 2024 | EfficientSCI++:高效的视频单曝光压缩成像重建框架你常做的12件小事,正悄悄偷走你的视力;牛磺酸接连登上三大顶刊!Nature新论文揭示牛磺酸抗肥胖的分子机制|本周论文推荐顶刊TPAMI 2024!无需全标注,仅用少量涂鸦标注即可获得确定和一致的语义分割预测结果顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能顶刊TPAMI 2024!PERF:一张2D全景图可合成高质量的360度3D场景医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器NTU吕教授1v1科研:基于机器学习的面部表情识别算法|收获一作论文与导师推荐信!港中文李教授1v1科研:基于深度学习的无人机目标识别算法研究|收获一作论文与导师推荐信!「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型顶刊TPAMI 2024!涨点显著!多尺度循环细化单目深度估计模型顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法高级!顶刊里的孟德尔随机化套路,2天教你学会……(快收藏)顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!不愧是美国顶级私校孩子的学习方法!无痛+高效 有娃的家长必看乔布斯女儿官宣新男友,竟是奥运冠军!斯坦福毕业的顶级白富美,如今长成了这样.....斩获3项CVPR 2024顶会大奖!美图影像研究院新突破!探秘!美国顶级私校学生的高效学习方法再上一个新台阶!中国登顶3万亿的首个省会城市,出现了顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。