刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
扫描下方二维码,加入CVer学术星球,可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!
针对3D open-vocabulary场景理解问题,腾讯优图实验室提出了一个新的统一模态的架构UniM-OV3D,将3D场景的四个模态数据point、image、text和depth map统一到了一个模型中。通过深入挖掘点云本身的特征,对各个模态做细粒度特征的表示,并进行四个模态的对齐,所提出的方法在包含室内、室外场景的四个数据集ScanNet, ScanNet200, S3IDS and nuScenes上均达到了SOTA的效果。
题目:UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation
论文:https://arxiv.org/abs/2401.11395
代码:https://github.com/hithqd/UniM-OV3D
背景
因此,为了充分利用各种模态的协同优势,本文提出了一个新的多模态对齐方法,将 3D 点云、image、depth map和text共同对齐到统一的特征空间中,以实现更精确的3D open vocabulary 场景理解 。
方法
UniM-OV3D的整体架构如上图所示,点云数据由层次化点云特征提取模块处理以融合局部和全局特征。为了实现coarse-to-fine的文本监督信号,point-semantic caption learning被设计为从各种 3D 视角获取点云的文本表示。整体框架以点云、2D图像、文本和深度图作为输入,为3D open-vocabulary场景理解建立统一的多模态对比学习。
Hierarchical Feature Extractor
Point-semantic Caption Learning
如上图所示,基于点云的不同层次生成的caption不仅提供了对场景的更精确和整体的描述,而且还更准确地表示了场景内目标的方向信息以及它们之间的相互关系。
统一模态的对齐
最终总的模态对齐损失为:
其中文本模态提供全面且可扩展的文本描述,而图像模态提供关于目标和上下文数据的准确指导。此外,深度和 3D 点云揭示了物体的重要结构细节。通过将这些模态统一在一个公共空间中,本文的方法可以最大限度地发挥它们之间的协同优势,从而获得突出的3D open-vocabulary场景理解性能。
实验结果
3D Semantic Segmentation
对于室内场景,在Scannet和S3DIS数据集上,本文的方法在不同的partition上对于hIoU指标的对比上比现有的sota方法分别高3.2%-5.4%,5.5%-7.8% 。
当面对ScanNet200中的长尾问题时,UniM-OV3D比现有最好的zero-shot方法在hIoU上高出5.1%-6.9% ,在mIoU上高出3.5%-5.2%。对于室外场景,UniM-OV3D在新类上比现有方法高4.8%-6.4% hIoU 和 5%-5.6% mIoU。
3D Instance Segmentation
在实例分割任务中,UniM-OV3D 也hAP50、mAP 50指标上超过了现有的方法:5%-10.6% , 5%-5.3%、 3.1%-13.2% 。
总结
在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!
计算机视觉技术交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者