Bendi新闻
>
AAAI 2024 北大提出BEV-MAE:高效的LiDAR感知模型预训练策略

AAAI 2024 北大提出BEV-MAE:高效的LiDAR感知模型预训练策略

7月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散和3D】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

本文介绍了来自北京大学王选计算机研究所的王勇涛团队与其合作者的研究成果BEV-MAE。针对自动驾驶场景,该篇工作提出了一个高效的LiDAR感知模型预训练策略,可缓解LiDAR感知模型对标记数据的需求,论文已发表在AAAI 2024。

论文标题:BEV-MAE: Bird’s Eye View Masked Autoencoders for Point Cloud Pre-training in Autonomous Driving Scenarios          
论文:https://arxiv.org/abs/2212.05758          
主页:https://github.com/VDIGPKU/BEV-MAE

论文概述

本文提出了BEV-MAE,一种高效的3D点云感知模型预训练算法,可直接使用大量的无标记点云数据对感知模型进行预训练从而降低对点云标记的需求。BEV-MAE首先使用鸟瞰图引导的掩码策略来对3D点云输入进行掩码,该部分被掩盖的点云将被替换为共享的可学习令牌。之后被处理过的点云依次输入到3D编码器和轻量级的解码器中,由轻量级的解码器重建被掩盖的点云并预测被掩盖区域的点云密度。BEV-MAE在自动驾驶感知数据集Waymo上以最低的预训练代价取得了最高的3D目标检测精度提升。同时,基于Transfusion-L检测器,BEV-MAE在自动驾驶感知数据集nuScenes上取得了领先的3D点云目标检测结果。    

研究背景:

3D目标检测是自动驾驶中最基本的任务之一。近年来,由于标注数据集和数据量的增加,基于激光雷达(LiDAR)的3D目标检测算法取得了显著的成功。然而,现有的基于激光雷达的3D目标检测算法通常采用从头开始训练的范式(training from scratch)。这种范式存在两个显著的缺陷。首先,从头开始训练的范式在很大程度上依赖于大量的标注数据,而对于3D目标检测而言,标注准确的物体包围框和分类标签是需要大量人工参与的,且非常昂贵和耗时的。例如,在KITTI数据集上标注一个物体需要大约114秒。其次,在许多实际应用场景中,自动驾驶车辆在行驶过程中可以生成大量无标注的点云数据,而从头开始训练的范式不能很好地将这部分数据利用起来。

方法部分:

针对该问题,作者研究了一种针对自动驾驶场景的 3D 点云自监督预训练方法,提出了一种名为 BEV-MAE 的鸟瞰图掩码自编码器框架,专门用于预训练自动驾驶场景的 3D 目标检测器。具体流程图如下图所示:

   

BEV-MAE首先使用鸟瞰图引导的掩码策略来对3D点云输入进行掩码。然后,这部分被掩盖的点云将被替换为共享的可学习令牌。之后,将处理后的点云依次输入到3D编码器和轻量级的解码器中。最后,轻量级的解码器将重建被掩盖的点云并预测被掩盖区域的点云密度。

a、鸟瞰图掩码策略

在基于激光雷达的3D目标检测中,点云通常被划分为规则的体素块。一种简单的掩码策略是像视觉中的补丁掩码一样,对体素化后的点云进行掩码。然而,这种简单的体素掩码策略没有显式地学习自动驾驶中主流的3D目标检测方法中使用的鸟瞰图特征表示。

为此,作者提出了一种鸟瞰图引导的掩码策略对鸟瞰图平面中的点云进行掩码操作。

具体而言,假设点云被编码和转换后鸟瞰图视角中的特征分辨率为,首先预定义一个大小为的网格状鸟瞰图平面。然后,根据点云的坐标将每个点云投影到预定义平面的相应鸟瞰图网格中。之后,作者将随机选择一部分非空的鸟瞰图网格作为被掩码的网格,并将其余的鸟瞰图网格视为可见网格。最后将所有投影到可见网格中的点云视为掩码后的点云输入到网络中。

b、共享可学习token

常用的基于体素的3D目标检测器的3D编码器通常由多个稀疏卷积操作组成,而稀疏卷积仅会处理非空体素附近的特征,因此,将掩码后的点云作为输入时,3D编码器的感受野将会变小。为了解决这个问题,作者采用一个共享的可学习令牌替换被掩盖的点云。具体来说,作者使用完整点云的坐标作为稀疏卷积的输入索引,并在第一个稀疏卷积层中用共享的可学习令牌替换被掩码点云的特征,同时保持其他稀疏卷积层不变。所提出的共享可学习令牌的唯一目的是将信息从一个点或体素传递到另一个点或体素,以维持感受野大小不变,而不引入任何额外的信息,包括被掩码点的坐标,来降低重建任务的难度。    

c、掩码预测任务

所提出的BEV-MAE由两个任务作为监督,即点云重建和密度预测。对于每个任务,都采用独立的线性层作为预测头来预测结果。

对于点云重建,与之前的工作类似,BEV-MAE通过预测被掩码点云的坐标来重建掩码输入。采用chamfer-distance作为训练损失函数。

对于密度预测,不同于图像、语言和室内点云,自动驾驶场景中室外点云的密度具有随离激光雷达传感器越远而越稀疏的特性。因此,密度可以反映每个点或物体的位置信息。而对于目标检测而言,检测器的定位能力至关重要。因此,点云密度预测任务能够一定程度上指导3D编码器获得更好的定位能力。

具体而言,对于每个被掩码的网格,计算此网格中的点云数量,并通过将点云数量除以其在3D空间中的占用体积来得到对应的密度真值。然后,BEV-MAE使用线性层作为预测头来预测密度。密度预测使用Smooth-L1损失来监督此任务。

实验部分:   

BEV-MAE主要在两个主流的自动驾驶数据集nuScenes和Waymo上进行实验。

在Waymo上,BEV-MAE以较低的预训练代价,取得了更高的3D目标检测性能提升,如下图所示:

在nuScenes上,以BEV-MAE作为预训练算法,能够进一步提升当前最强点云3D目标检测器的性能。以TransFusion-L作为基础3D检测器,外加BEV-MAE的预训练算法,在nuScenes数据集上取得了先进的单模态点云3D目标检测结果。

结论:

本文针对点云预训练问题,提出了BEV-MAE,一种基于掩码模型的LiDAR感知模型预训练策略,在预训练效率和性能上表现出色,可缓解LiDAR感知模型对标记数据的需求。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和多模态学习交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

AAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值AAAI 2024 | 中科院信工所提出结构化概率编码框架,有效增强预训练语言模型泛化能力焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024AAAI 2024 | 清华提出DRM:无偏差的新类发现与定位新方法AAAI 2024 | 上交等提出自适应间距强化对比学习,增强多个模型的分类能力AAAI 2024 | 广西师范大学提出ODTrack:目标跟踪新框架一文读懂多家厂商的大模型训练、推理、部署策略AAAI 2024 | SO2:从Q值估计的角度重新审视Offline to Online RL浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果AAAI 2024 | 通用图扩散框架:建立不同图神经网络与扩散方程之间的关系刘巍教授:非心脏手术围手术期心肌损伤/心肌梗死的现状及处理策略 | CCIF 2024在 IDE 中实现自然语言搜索代码:RAG 策略的设计与落地KAYTUNE凯淳策略中心:2024第一季度护肤行业复盘报告合肥模式背后的深思:产业升级的策略与风险国联资管贺巍:做好的“策略提供人”和“账户服务者”|访谈录AAAI 2024 | 面向神经网络的全贝叶斯显著性检验方法十大免税和减税投资策略:最大化您的净投资回报​AAAI 2024 | 杭电等提出MINDS,基于序列超图和对抗学习增强多尺度扩散预测《蓝色星原》全女角:坚定的媚男策略有用吗?Re-Hub:2024中国奢侈品市场策略报告-在新现实下寻找新的品牌增长点2024年光伏策略:产能释放加速见底,迎接光储平价新时代【广发资产研究】一张图看懂《时代嬗变下的资产配置:全球杠铃策略——“债务周期大局观”系列(十一)》戴康:时代嬗变下的资产配置:全球杠铃策略——“债务周期大局观”系列(十一)小红书:2024家生活行业全新策略助赢618增长-最家提案
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。