Bendi新闻
>
国防科大新作SceneTracker:在4D时空中追踪万物!

国防科大新作SceneTracker:在4D时空中追踪万物!

6月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

Part1 论文信息

标题:SceneTracker: Long-term Scene Flow Estimation Network

作者:Bo Wang,Jian Li,Yang Yu,Li Liu,Zhenping Sun,Dewen Hu

机构:国防科技大学

原文链接:https://arxiv.org/abs/2403.19924

代码链接:https://github.com/wwsource/SceneTracker

Part2 论文简介

在时间与空间组成的4D时空中,精确、在线地捕捉和分析长时且细粒度的物体运动,对机器人自动驾驶元宇宙具身智能等领域更高水平的场景理解起到至关重要的作用。

本研究提出的SceneTracker,是第一个公开的(2024.03)有效解决在线3D点跟踪问题或长时场景流估计问题(LSFE)的工作。其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。

SceneTracker是一种新颖的基于学习的LSFE网络,它采用迭代方法来逼近最优轨迹。同时其动态索引和构建表观和深度相关性特征,并利用Transformer挖掘和利用轨迹内部和轨迹之间的远程联系。通过详细的实验,SceneTracker在处理3D空间遮挡和深度噪声干扰方面显示出卓越的能力,高度符合LSFE任务的需求。

最后,本研究构建了第一个真实世界的评估数据集LSFDriving,进一步证实了SceneTracker值得称赞的泛化能力。

Part3 所提方法介绍

我们的目标是跟踪一个3D视频中的3D点。我们形式化该问题如下:一个3D视频是一个帧的RGB-D序列。估计长时场景流旨在生成已知初始位置的个查询点的相机坐标系下的3D轨迹。默认的,所有跟踪都开始于视频的第一帧。值得注意的是,我们方法可以灵活地从任意一帧开启跟踪。我们方法的整体架构如图1所示。

图1

轨迹初始化

初始化的第一步是将整个视频划分为若干滑动窗口。我们以长度、滑动步长进行划分。如图1左侧所示,我们需要跟踪个查询点,以红色、绿色和蓝色点为例。对于第一个滑动窗口,位置会被初始化为查询点的初始位置。对于其他滑动窗口,其前帧会根据前一个滑动窗口的后帧的估计结果进行初始化,而其后帧会根据前一个滑动窗口的最后一帧估计结果进行初始化。以任意一个滑动窗口为例,我们得到初始化的轨迹

特征编码和下采样

我们网络推理在的分辨率上。这里是一个下采样系数。首先我们使用一个Feature Encoder网络来提取图像特征。Feature Encoder网络是一个卷积神经网络,包括8个残差块和5个下采样层。不像处理RGB图像,我们直接对帧的原始深度图进行间隔为的等间隔采样。此外我们利用相机内参从相机坐标系转换到一个由图像平面和深度维度组成的坐标系下。转换公式如下:

进一步地,我们对该初始化轨迹进行下采样得到

模板特征和轨迹的更新

在Flow Iteration模块,我们迭代式地更新查询点的模板特征和3D轨迹。当处理第一个滑动窗口的第一帧时,我们使用查询点的坐标在特征图上进行双线性采样,从而获得第一帧的模板特征。然后我们将该特征在时间维度上复制次,获得所有后续滑动窗口的初始模板特征。所有滑动窗口都有一个统一的和不同的。经过次相同的Transformer Predictor模块,它们会被更新为

轨迹输出

我们首先上采样,以匹配原始输入分辨率。然后,我们结合相机内参,将坐标系转换到相机坐标系,得到。最后,我们链接所有滑动窗口的。相邻窗口中重叠部分采用后一个窗口的结果。

Part4 所提数据集介绍

给定一个自动驾驶数据的序列,我们的目标是构建一个帧的RGB-D视频以及第一帧中感兴趣点的3D轨迹。具体地说,我们会分别从静态背景、移动的刚性车辆以及移动的非刚性行人上采样感兴趣点。

背景上的标注

首先,我们利用相机内参和外参来提取第一帧的LiDAR点,这些点可以被正确地投影到图像上。然后我们使用2D目标检测中的包围框来过滤掉所有前景LiDAR点。以一个LiDAR点为例,我们根据车辆位姿将其投影到剩余的帧上。正式地,在时刻的投影点为:

这里,是时刻从车体到时间坐标系的转换矩阵。

车辆上的标注

与背景不同,车辆具有自己独立的运动。我们引入3D目标跟踪中的3D包围框来提供时刻从世界到包围框坐标系的转换矩阵。我们使用3D包围框来过滤出所有车辆的LiDAR点。以一个LiDAR点为例,在时刻的投影点为:

行人上的标注

行人运动的复杂性和非刚性决定了其标注困难,这在现有的场景流估计数据集中不包含该类数据可以进一步证明。我们使用双目视频来间接地解决该挑战。首先,我们准备一段帧的矫正双目视频。然后我们采用一个半自动的标注框架来高效且准确地标记左右目视频中感兴趣点的2D轨迹。第一步是标记感兴趣点,我们开发了一个定制化的标注软件并标记第一帧左目图像中感兴趣点的2D坐标。第二步是计算粗左目轨迹,我们利用CoTracker来计算左目视频的粗轨迹。第三步是计算粗右目轨迹,我们利用LEAStereo来逐帧计算感兴趣点的视差,从而推导出粗轨迹。第四步是人工细化阶段,左右粗轨迹会在标注软件中显示,其中所有低质量的标注都会被人类标注师修正。最后,我们结合细化后的左轨迹和视差序列来构造3D轨迹。图2展示了行人的LSFE标注过程。

图2

Part5 实验结果

所提数据集LSFDriving示例

图3为所提LSFDriving数据集在三种类别(背景、车辆、行人)上的示例。

图3

所提方法SceneTracker估计效果

图4为所提方法SceneTracker在LSFOdyssey测试集上的估计效果示例。我们等间隔地展示了40帧视频中的12帧点云。方法估计出的轨迹用蓝色显示在对应点云上。从图4可以看出,面对相机和场景中动态物体的复杂运动,我们方法始终能够输出平滑、连续且精确的估计结果。

图4

与SF、TAP方法的定性比较

图5是我们方法与scene flow基线、tracking any point基线方法在LSFOdyssey测试集上的定性结果。我们可视化了最后一帧的预测和真值轨迹。轨迹使用jet着色。实线框标记了SF基线由于遮挡或超出边界导致的显著错误区域。从图5可以看出,相比其他方法,我们方法能够估计出厘米级别精度的3D轨迹。

图5

与SF、TAP方法的定量比较

表1为在LSFOdyssey测试集上3D指标的定量结果。所有数据均来自于Odyssey训练流程。从表1可以看出,我们方法在所有数据集指标上均显著超越其他方法。

表1

在真实场景数据集LSFDriving上的表现

表2为不同推理模式下我们方法在LSFDriving上的评估结果。从表2可以看出,在仅仅依赖合成数据进行训练的条件下,我们方法展现出值得称赞的真实场景估计性能。

表2

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

2023年AAAS Fellow名单出炉!信息计算领域:浙大教授、中科大校友当选性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 SpotlightxLSTM崛起!魔芯科技、中科大等新研究揭示其在医学图像分割中超越Mamba中央督察组暗访,发现小江豚在油污中拼命挣扎!当地官员称“只是条大青鱼”,被纠正后改口:“可能是黑鱼或水獭”中疾控:新冠疫情可能在本月出现回升!北大医院感染科主任:不同呼吸道病原体可能同时或交替感染罗援:惊涛骇浪中的中国国防自信——不论“大打”“中打”“小打”!数学天才孙崧回国任教!中科大少年班出身,27岁破解“丘成桐猜想”,官宣加盟浙大振奋!大使馆:中加直飞航班要增加!民航局已回应!斯坦福博士考安徽乡镇公务员!本科中科大+顶级奖学金,世界第5的终点也是考公?本科中科大+斯坦福博士!中国留学生“上岸”乡镇公务员后,网友忍不了了超越扩散模型!度小满、中科大等联合提出全新自回归通用文生图模型ICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少GPT-4o 17人Omni金牌团队首揭秘!清北上交中科大6位华人领衔中科大/华为诺亚出手!芯片性能≠布局评分,EDA物理设计框架全面开源突发:中信大老虎落马!曾差点当院士昔日“顶流”蔡某某案,已当庭宣判!15岁考进中科大少年班,曾一年亏超120亿元,依然收了3亿多元管理费暴跌11.10%!马斯克:“已在所有系统中删除!”恶心!中年华男在地铁上兽欲大发 把手伸进15岁华女上衣乱摸出事了!Costco常见知名矿泉水大规模召回!大批华人惨中招:刚囤40大箱!新课开讲!张旭东在纽大讲文学:重新认识鲁迅杂文"奖金来的正是时候"!大多伦多华裔女子中彩票:临近截止时间才买到!底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原高度传染性!CDC警告:这种呼吸道病毒在儿童中迅速传播被问爆了!后悔没早入:北美中小学生在用的4个超火阅读APP
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。