ECCV 2024:北大提出多模态提示学习:让大模型更懂人类在做什么!
点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信号:CVer111,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信号:CVer111,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
北京大学王选计算机研究所雷廷 投稿
转载自:量子位(QbitAI)
只用提示词,多模态大模型就能更懂场景中的人物关系了。
北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。
在这个过程中,最难的部分在于教会模型识别未见过的人物交互类型。
要知道,大多数现有研究都集中在封闭环境,一旦变成更接近现实的开放环境,模型就懵逼了!
比如下图,先前的检测器在平衡已见和未见类别时遇到了困难,导致调和平均值较低,并且在未见类别上的表现较差。
相比之下,CMMP方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能。
至于CMMP方法如何解决未见类别,一句话:
在特征提取过程中使用视觉空间线索,帮助识别未见的人物-物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。
总之,CMMP方法提供了一种新的范式,可以微调多模态大模型,使其具备泛化的区域级人物交互关系检测能力。
以上研究来自北大王选计算机技术研究所,相关论文已被顶会ECCV 2024接收。
零样本人物交互检测新框架
团队提出了一种使用CMMP进行零样本HOI(Human-Object Interaction)检测的新框架。
具体来说,CMMP将零样本人物交互检测分为两个子任务:
交互性感知的视觉特征提取
可泛化的交互分类
然后为每个子任务分别提出了解耦的视觉和文本提示,以消除它们之间的依赖性并缓解错误传播。
条件视觉提示(Pv)用于将空间和交互性感知的知识注入图像编码器,并通过实例级视觉先验(Cins)和交互的全局空间模式(Cgsp)进行约束。条件语言提示(PL)通过正则化损失受人设计的提示(CL)的约束。
交互性感知的视觉特征提取
团队采用的多模态模型的图像编码器最初通过对大规模图像-文本对进行对比学习预训练(CLIP),其能力可能仅限于理解图像级的一阶语义。
为了使图像编码器能够区分图像中所有的人物交互性,团队提出将不同粒度的先验知识整合到条件视觉提示中,使其理解为人物交互关系检测任务定制的区域级二阶语义。
具体来说,研究人员将实例级信息作为先验知识融入条件视觉提示中。
给定输入图像,首先使用预训练的物体检测器获取所有实例级先验知识,包括边界框、置信度分数和检测到的实例的语义编码。
此外,为了鼓励每个实例意识到其潜在的交互对象,团队将训练集中交互的全局空间模式(Global Spatial Pattern)与实例级先验知识(Instance-level Visual Prior)结合。
具体来说,对于每个标注的交互人物对,研究人员首先计算其一元和二元空间特征。
随后,使用K-means聚类算法确定聚类中心,并将其用作交互人物对的代表性空间模式。
全局空间交互模式提供了一种类别无关的代表性空间配置,作为理解已见和未见人物交互概念之间交互性的桥梁。
最终,研究人员将结合后的知识通过轻量级适配器融入到图像编码器中。
可泛化的交互分类
为了在学习人物交互检测任务特定表示的同时保留CLIP的可泛化通用知识,团队在文本分支中采用了带有一致性约束的语言感知提示学习(Language-aware Prompt Learning)。
该约束确保已见和未见类别的学习原型(Prototype)之间保持合理的分离边界,不会彼此过度偏离。
具体来说,对于每个动作类别,研究人员首先使用人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。
类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接,然后通过文本编码器获得。
为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力,研究人员提出使用人工设计的提示来指导可学习语言提示的特征空间。
该约束确保已见和未见类别的原型之间保持合理的分离边界,不会彼此过度偏离。
团队应用正则化对比学习损失来减少特征表示与人工设计语言提示的特征表示之间的差异。
训练CMMP
基于交互性感知的特征图和预训练物体检测器提取的人和物体的边界框,团队首先应用ROI-Pooling来提取不同区域的特征。
然后,将不同区域提取的特征进行融合,并通过交互分类器进行最终的交互类别预测。
整个模型在交互分类训练中使用了focal loss,同时还应用了语言正则化损失。
实验结果
在结果验证阶段,团队采用人物交互检测常用数据集HICO-DET,其中的600个人物交互类别由80个物体类别和117个动词类别组成。
为了验证模型的零样本性能,研究人员在HICO-DET上评估了五种零样本设置。
为了和现有方法实现公平比较,研究默认采用ViT-B/16作为骨干网络。
如下表所示,实验结果表明,CMMP在所有的零样本设定上,都在未见类上取得了最佳的性能,这证明了引入条件多模态提示的有效性。
如表中每种类型的最后一行所示,通过利用ViT-L/14骨干网来扩展CMMP以匹配CLIP4HOI的FLOPs,新方法在所有划分中都取得了最佳性能。
这表明团队的模型在视觉特征的空间关系提取和交互分类的原型学习方面具有卓越的能力。
此外,先前的方法在已见和未见类别之间表现出严重的性能差异,表明其缺乏泛化能力。
而本研究的模型能够在很大程度上缓解这一问题,并且在泛化到以前未见的交互类别方面具有很高的潜力,这证实了带有约束的多模态提示的有效性。
更多细节请参考原论文。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
微信扫码关注该文公众号作者