ICLR 2024 | 高分工作！Uni3D：3D基础大模型，刷新多个SOTA！

国际科技财经移民娱乐民生时事体育

Bendi新闻

1年前

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【CV技术和求职】交流群

扫码加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文搞科研，强烈推荐！

作者：周俊昇 | 已授权CVer转载（源于知乎）

https://zhuanlan.zhihu.com/p/678856210

我们近期的工作：3D视觉大模型Uni3D在ICLR 2024的评审中获得了688分，被选为Spotlight Presentation

在本文中，我们第一次将3D基础模型成功scale up到了十亿(1B)级别参数量，并使用一个模型在诸多3D下游应用中取得SoTA结果。代码和各个scale的模型（从6M-1B）均已开源，欢迎大家关注和使用：

论文：https://https://arxiv.org/pdf/2310.06773

代码：https://https://github.com/baaivision/Uni3D

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域，scale up大模型（GPT-4，SAM，EVA等）已经取得了很impressive的结果，但是在3D视觉中模型的scale up始终没有成功。我们旨在将NLP/2D中scale up的成功复现到3D表征模型上。

在这项工作中，我们提出了一个3D基础大模型Uni3D，直接将3D backbone统一为ViT（Vision Transformer），以此利用丰富和强大的2D预训练大模型作为初始化。Uni3D使用CLIP模型中的文本/图像表征作为训练目标，通过学习三个模态的表征对齐（点云-图像-文本）实现3D点云对图像和文本的感知。同时，通过使用ViT中成功的scale up策略，我们将Uni3D逐步 scale up，训练了从Tiny到giant的5个不同scale的Uni3D模型，成功地将Uni3D扩展到10亿级别参数。

Uni3D在多个3D任务上达到SoTA，如：zero-shot classification, few-shot classification，open-world understanding, open-world part segmentation.

由于学到了强大的多模态表征能力，Uni3D还能够做一些有意思的应用，如point cloud painting（点云绘画），text/image-based 3D shape retrieval（基于图像/文本的3D模型检索），point cloud captioning（点云描述）：

在CVer微信公众号后台回复：论文，即可下载论文pdf和代码链接！快学起来！

点击进入—>【CV技术和求职】交流群

3D视觉交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-3D视觉微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如3D视觉+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer444，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

来源：CVer

ICLR 2024 | 高分工作！Uni3D：3D基础大模型，刷新多个SOTA！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【CV技术和求职】交流群

作者：周俊昇 | 已授权CVer转载（源于知乎）

相关新闻

AI/CV重磅干货，第一时间送达
点击进入—>【CV技术和求职】交流群