Bendi新闻
>
刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解

刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解

10月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【3D视觉和求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

针对3D open-vocabulary场景理解问题,腾讯优图实验室提出了一个新的统一模态的架构UniM-OV3D,将3D场景的四个模态数据point、image、text和depth map统一到了一个模型中。通过深入挖掘点云本身的特征,对各个模态做细粒度特征的表示,并进行四个模态的对齐,所提出的方法在包含室内、室外场景的四个数据集ScanNet, ScanNet200, S3IDS and nuScenes上均达到了SOTA的效果。

题目:UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation

论文:https://arxiv.org/abs/2401.11395    

代码:https://github.com/hithqd/UniM-OV3D   

背景  

现有的方法在3D open-vocabulary场景理解问题上要么从2D图像中进行知识蒸馏,再映射到3D空间,要么只使用点云数据进行特征学习和表示。这种缺乏对其他更多模态的表示和对齐阻碍了他们有效处理细粒度点云对象实例的能力,如下图所示。考虑到3D场景的属性,深度信息是深度不变特征聚合的关键模态,但常常被忽视。尽管有一些方法进行了深度信息的探索,但是他们采用的是投影或者是渲染,而且仅仅是和一个模态进行对齐,这并不能充分发挥深度模态的作用。而考虑到点云信息本身的探索, 针对点云的caption learning是很多工作的方向所在,但是现有的工作都聚焦于以2D图像作为桥梁来生成3D点云的caption,这种及间接的caption生成方式并不是真正意义的点云caption learning,而且他们对于点云特征的提取也往往采用单一的冻结的3D提取器。   

因此,为了充分利用各种模态的协同优势,本文提出了一个新的多模态对齐方法,将 3D 点云、image、depth map和text共同对齐到统一的特征空间中,以实现更精确的3D open vocabulary 场景理解 。   

方法  

UniM-OV3D的整体架构如上图所示,点云数据由层次化点云特征提取模块处理以融合局部和全局特征。为了实现coarse-to-fine的文本监督信号,point-semantic caption learning被设计为从各种 3D 视角获取点云的文本表示。整体框架以点云、2D图像、文本和深度图作为输入,为3D open-vocabulary场景理解建立统一的多模态对比学习。

Hierarchical Feature Extractor  

以稀疏点云作为输入,本文提出了一种可训练的层次化点云提取器来捕获细粒度的局部和全局特征,而不是仅仅利用冻结的 3D 提取器。输入被引导到transformer网络中,该网络采用基于注意力的层来回归 4×4 变换矩阵。该矩阵包含表示学习的仿射变换值的元素,这些元素用于对齐点云。对齐后,这些点被引入多个堆叠的空间感知层,这些层用于产生这些点的排列不变的特征。在这个结构中,使用PointBERT和PointMAE分别提取局部和全局的特征表示,并使用注意力模块充当两个相邻层之间的连接桥梁进行特征的传递。在通过基于注意力的层处理信息后,所有这些 N 维层的输出被连接起来。最后,可以添加分割头来输出点云的全局信息聚合,提供点云的全面表示。

Point-semantic Caption Learning  

在生成点云的caption方面,本文首次尝试直接从点云生成相应的文本,而不是使用图像作为桥梁。我们构建了分层的点语义caption pairs,包括global、eye、sector三个层次的caption,它们可以提供细粒度的语言监督。   

如上图所示,基于点云的不同层次生成的caption不仅提供了对场景的更精确和整体的描述,而且还更准确地表示了场景内目标的方向信息以及它们之间的相互关系。

统一模态的对齐

对于得到的四个模态细粒度的表示,本文采用点云和其他模态之间的对比学习损失:

最终总的模态对齐损失为:

其中文本模态提供全面且可扩展的文本描述,而图像模态提供关于目标和上下文数据的准确指导。此外,深度和 3D 点云揭示了物体的重要结构细节。通过将这些模态统一在一个公共空间中,本文的方法可以最大限度地发挥它们之间的协同优势,从而获得突出的3D open-vocabulary场景理解性能。   

实验结果  

3D Semantic Segmentation  

对于室内场景,在Scannet和S3DIS数据集上,本文的方法在不同的partition上对于hIoU指标的对比上比现有的sota方法分别高3.2%-5.4%,5.5%-7.8% 。

当面对ScanNet200中的长尾问题时,UniM-OV3D比现有最好的zero-shot方法在hIoU上高出5.1%-6.9% ,在mIoU上高出3.5%-5.2%。对于室外场景,UniM-OV3D在新类上比现有方法高4.8%-6.4% hIoU 和 5%-5.6% mIoU。   

3D Instance Segmentation  

在实例分割任务中,UniM-OV3D 也hAP50、mAP 50指标上超过了现有的方法:5%-10.6% , 5%-5.3%、 3.1%-13.2% 。

总结  

本文针对3D open-vocabulary场景理解问题提出了一个统一模态表示的新架构UniM-OV3D,做到了针对3D场景数据中point、image、text及depth map四个模态的融合。为了充分学习各个模态的细粒度特征表示,本文首先设计了层次化点云特征提取器,而对于点云的caption learning问题,本文首次构建了直接从点云生成相应的文本的caption learning机制。这种统一模态的架构可以充分利用各个模态的优势,这种设计也在室内室外的各个场景中证明了有效性。因此,UniM-OV3D为3D open-vocabulary场景理解提供了一个有效的解决方案。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!

快点击进入—>【CV算法和求职】交流群


计算机视觉技术交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

Apple多模态最新工作4M-21:搞定21种模态!刷新多个SOTA!ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!37项SOTA!全模态预训练范式MiCo:理解任何模态并学习通用表示|港中文&中科院刷新多个记录!DOFA:遥感领域的跨模态基础大模型梗图理解“天花板”!港中文终身教授贾佳亚团队推出多模态模型:GPT-4+DALL-E 3,王炸组合刷爆榜单3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA仅8B,全面超越GPT-4V!单图、多图、视频理解端侧三冠王!史上最强端侧多模态诞生字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便联汇科技OmChat:突破长视频理解极限的多模态大模型CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力一张长图透彻理解 SpringBoot 启动原理,架构师必备知识,不为应付面试!Reasoning3D:用大语言模型开启3D世界理解与交互的新篇章手机上能跑的 GPT-4V!面壁发布端侧最强多模态小钢炮 2.6,实时视频理解首次上端颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑全世界拥有最多乐高套装之人的吉尼斯纪录被刷新!新记录保持者拥有超过6000套乐高套装!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。