顶刊TPAMI 2024!涨点显著!多尺度循环细化单目深度估计模型
点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信号:CVer111,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信号:CVer111,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
近日,河海大学信息科学与工程学院范新南教授团队在单目深度估计研究中取得重要进展,研究成果以“Recurrent Multiscale Feature Modulation for Geometry Consistent Depth Learning”为题发表在人工智能领域顶级学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI)上。论文通讯作者为范新南教授和史朋飞副教授,第一作者为周仲凯博士。
https://ieeexplore.ieee.org/abstract/document/10574331
在人类感知真实世界环境的过程中,人眼视觉系统获取的外部环境信息占据了其他感知系统的主导。人眼作为一种精密的视觉图像获取系统,可以准确的获取周围环境与景物的三维结构与运动信息,从而为人类的感知决策提供精确的判断依据。随着计算机技术和人工智能的迅猛发展,如何让计算机像人类一样自主感知外部环境,并替代人眼实现外部世界的目标识别、跟踪与测量,已经成为当前相关学者研究的重要课题。在此背景下,自监督单目深度估计技术应运而生。该技术通过利用单目相机捕捉的图像信息,借助深度学习算法,从未标注的数据中自动提取深度信息,显著降低了对标注数据的依赖。这不仅使得深度估计更加经济高效,同时也拓展了其在机器人导航、自动驾驶、增强现实等领域的应用。自监督单目深度估计技术的优势在于其能够从单一视角下推断出物体的三维结构,具备较强的泛化能力和鲁棒性,从而为计算机自主感知提供了可靠的技术支持,推动了智能系统的发展与进步。
图1 多尺度循环细化单目深度估计R-MSFM模型
本文建立了一种全新的循环细化方案。基于这一方案,研发了一种轻量级的新型多尺度循环细化单目深度估计模型。同时,针对单目深度估计模型普遍存在的深度边缘模糊和几何一致性差的问题,提出了一种面向空间几何一致性的单目深度估计方法。该成果突显了提出的循环细化方案和面向空间几何一致性的训练策略在显著提升单目深度估计模型的精度、效率和一致性方面的有效性。
论文的主要贡献包括:
鉴于经典的由粗到细估计方案过度依赖于深度编码器,从而导致模型参数繁多和训练过程中出现的误差传播问题,创新性地提出了一种循环细化方案。基于此方案,研发了一种轻量级的多尺度循环细化单目深度估计模型R-MSFM,旨在改善传统由粗到细估计方案模型的局限性。作为循环细化方案的基准模型,这一多尺度循环细化单目深度估计模型在显著降低模型参数的同时,有效提升了单目深度估计的精度。该模型以其轻量化结构、较高的运行效率及较高的深度估计能力,展现了在内存受限场景下的应用潜力。
鉴于当前方法在处理视频连续帧时,深度估计结果常出现几何不一致的现象,提出了一种面向空间几何一致性的训练策略。该策略通过设计专门的空间几何一致性损失函数,有效衡量相邻图像帧在有效区域内深度估计值的一致性。此外,该策略将不一致性视为一种损失进行惩罚,确保不同图像帧中相同三维点在重投影空间中保持一致的坐标位置。通过高频对齐技术,这一策略能够更精准地表征目标细节信息。该策略为单目深度估计在视频应用领域提供了新的解决方案,有望显著提升视频深度估计的准确性与一致性。
图2 深度循环细化对比可视化结果
何恺明在MIT授课的课件PPT下载
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
微信扫码关注该文公众号作者