Bendi新闻
>
顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景

顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景

7月前


研究背景
随着深度学习与 3D 技术的发展,神经辐射场(NeRF)在 3D 场景重建或逼真新视图合成方面取得了巨大的进展。给定一组 2D 视图作为输入,神经辐射场通过优化隐式函数来表示 3D 场景。 

然而,在很多情况下,我们只有单张 2D 视图。一些工作尝试从具有 3D 先验的单张图像训练神经辐射场。他们主要关注有限的视野,因此仅需考虑少量的遮挡,这极大地限制了它们在具有大尺寸遮挡的真实 360 度全景场景中的可扩展性。 

在很多真实的应用场景下,我们通常需要 360 度全视角的 3D 场景。因此,有必要研究利用 360 度视角相机(例如 Insta360 或者 Ricoh THETA SC2)拍摄的一张 2D 全景图来恢复 360 度全视角的 3D 场景任务,如图 1 所示。

 图1. 单张全景图恢复360度3D场景



研究挑战和存在的方法

利用单张 2D 全景图进行 360 度 3D 全景恢复是一个挑战的问题。具体地:

1. 全景图是全景相机在某个位置捕获得到的 360 度 2D 视图,不包含 3D 信息。在没有任何 3D 先验的条件下,无法从单张 2D 全景图中训练出有效的神经辐射场 NeRF;

2. 由于单张全景图像只能捕捉到相机位置目光所及的可见区域,存在部分无法观测的区域。因此,训练单视图全景神经辐射场非常具有挑战性,它耦合了 3D 场景重建和 3D 场景生成两个学习任务。一方面,给定的一张全景图,我们需要重构其可见区域;而另一方面,我们必须在不可见区域生成合理的内容,在语义上匹配 3D 空间的可见区域,这是很困难的。 

3. 与有限视角的单张图恢复 3D 场景 [1-3] 或以物体为中心的 360 度物体重建 [4] 不同,全景场景通常包含大尺寸遮挡且侧重于开放场景。 

4. “可见区域的重建”和“不可见区域的生成”通常会出现几何冲突。在不可见区域的场景生成过程中,新合成的 3D 几何体不应遮挡原始视角能观测到的可见区域。否则,将导致训练期间出现几何冲突。 

为此,我们提出了一种新的方法解决单张 2D 全景图恢复 360 度 3D 全景问题,利用扩散模型的先验知识和单目深度估计器进行合作修补大尺度遮挡区域,并提出了一种新的冲突避免策略,实现了当前最佳的单张全景图恢复 360 度 3D 场景的效果。

注意到,在同期的工作 [5] 中,为了解决 3D 空间中物体的检测与去除,F. Wei 等提出了通过投票和裁剪的方法来保证各视角几何/纹理填补时的不一致性,但存在一些技术上的不同。也推荐读者去阅读此篇论文。本文工作发表在 TPAMI 2024 上。


论文题目:

PERF: Panoramic Neural Radiance Field from a Single Panorama

作者单位:

MMLab@NTU、大湾区大学、香港大学

项目主页:

https://perf-project.github.io/

论文链接:

https://arxiv.org/pdf/2310.16831.pdf


代码链接:

https://github.com/perf-project/PeRF


附:Guangcong Wang 和 Peng Wang 为共同一作,Ziwei Liu 为通讯作者。此工作在 MMLab@NTU 完成。收录顶刊 TPAMI 2024!


研究动机
神经辐射场(NeRF)在基于多视图的新视图合成方面取得了实质性进展。近期一些工作尝试从具有 3D 先验的单个图像训练神经辐射场。它们主要关注具有少量遮挡的有限视野,这极大地限制了它们对具有大尺寸遮挡的真实 360 度场景的可扩展性。为了解决这个问题,本文提出了一种新的方法解决单张 2D 全景图恢复 360 度 3D 全景问题。

▲ 图2. 本文所提出的PERF框架图



方法框架

上图展示了我们方法 PERF 的框架图。PERF 主要由三个部分组成,包括 1)包含深度图的单视图 NeRF 训练;2)协作 RGBD 修复不可见区域;3)渐进式修复和擦除。

具体来说,给定一张 2D 全景图,我们使用单目深度估计器来预测其深度图,并将输入视图(RGB+depth)作为初始化来训练 NeRF。然后利用一个协作 RGBD 修复模块进行不可见区域填补,该模块包含一个深度估计器和一个稳定扩散模型 (StableDiffusion),从而将 NeRF 扩展到随机视角渲染。

为了避免几何冲突,本文使用了渐进式修复和擦除模块来判别冲突区域并在训练中忽略这些区域。我们使用给定的单视图全景图和随机视点生成的新全景图进行 NeRF 模型的微调直到收敛。


主要贡献

本文的主要贡献有三点: 

1. PERF,一种从单张全景图训练 360 度 3D 全景神经辐射场的新方法。为此,我们提出了一种新的协作 RGBD 修补方法,利用预训练的稳定扩散(StableDiffusion)模型进行 RGB 修补,以及使用一个经过训练的单目深度估计器进行几何修补。值得注意的是,协作 RGBD 修补不需要额外的训练。 

2. 我们提出了一种渐进式修补和擦除方法,以避免不同视角之间的几何冲突。我们通过逐渐增加一个随机视角来修补不可见区域,并通过比较新添加的视角和参考视角的几何,擦除之间的冲突区域。

3. 在 Replica 和 PERF-in-the-wild 数据集上的大量实验表明,PERF 在单视图全景神经辐射场中达到了新的最先进水平。所提出的 PERF 可应用于全景图-3D、文本-3D 和 3D 场景风格化应用场景,这几个应用展示了非常好的结果。

应用1:单张全景图恢复360度3D场景

利用单张全景图训练,得到的新视角渲染视频。

 图3. 单张全景图恢复360度3D场景

应用2:文本生成360度3D场景应用

首先利用 Text2Light [6] 或者 skybox [7],由文本生成全景图,然后利用本文方法将全景图生成 360 度 3D 场景。如下示例中利用了 skybox。

 图4. 文本生成360度3D场景1

 图5. 文本生成360度3D场景2

 图6. 文本生成360度3D场景3

应用3:3D场景风格化

先利用 InstructPix2Pix [8] 将全景图风格化,然后利用本文方法将全景图生成 360 度 3D 场景。

 图7. 3D场景风格化 




大湾区大学王广聪课题组招聘


欢迎对计算机视觉、深度学习和图形学等领域感兴趣的同学(2024,2025级)加入王广聪课题组!我们诚挚邀请博士后、博士研究生、硕士研究生、研究助理、访问学生和实习生加入我们的课题组,共同探索前沿科技,详情请点击:

https://wanggcong.github.io/recruit2024.html


参考文献

[1] D. Xu, Y. Jiang, P. Wang, Z. Fan, H. Shi, and Z. Wang, “Sinnerf: Training neural radiance fields on complex scenes from a single image,” in Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXII. Springer, 2022, pp. 736–753
[2] Z. Yu, S. Peng, M. Niemeyer, T. Sattler, and A. Geiger, “Monosdf: Exploring monocular geometric cues for neural implicit surface reconstruction,” Advances in Neural Information Processing Systems (NeurIPS), 2022
[3] A. Yu, V. Ye, M. Tancik, and A. Kanazawa, “pixelnerf: Neural radiance fields from one or few images,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 4578–4587
[4] D. Xu, Y. Jiang, P. Wang, Z. Fan, Y. Wang, and Z. Wang, “Neurallift360: Lifting an in-the-wild 2d photo to a 3d object with 360deg views,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 4479–4489.
[5] F. Wei, T. Funkhouser, and S. Rusinkiewicz, “Clutter detection and removal in 3d scenes with view-consistent inpainting,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 18 131–18 14
[6] Z. Chen, G. Wang, and Z. Liu. "Text2light: Zero-shot text-driven HDR panorama generation." ACM Transactions on Graphics (TOG) 41, no. 6 (2022): 1-16.
[7] https://skybox.blockadelabs.com/
[8] Brooks, T., Holynski, A. and Efros, A.A., 2023. Instructpix2pix: Learning to follow image editing instructions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18392-18402).


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

顶刊TPAMI 2024!PERF:一张2D全景图可合成高质量的360度3D场景顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型顶刊IJCV 2024 | EfficientSCI++:高效的视频单曝光压缩成像重建框架顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器顶刊TPAMI 2024!无需全标注,仅用少量涂鸦标注即可获得确定和一致的语义分割预测结果顶刊TPAMI 2024!清华提出ProCo,无限Contrastive Pairs的长尾对比学习顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法医学顶刊MedIA 2024 | 残差对齐网络(RAN):多器官的非连续性形变配准顶刊TPAMI 2024!涨点显著!多尺度循环细化单目深度估计模型顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!江小涓:在人工智能国际顶刊的文章发表数上,2016年起中国企业的文章发表超过了高校;产业界顶级的科学家向高校回流与时代趋势不符顶刊IJCV 2024!基于概率表征的半监督对比学习框架2024年最顶级的活法:少顶刊IJCV 2024!通过提问学习基于知识的新物体识别这才是高质量的夏令营!体育竞技、创意手工、科技探索+顶级设施和后勤保障!就问还有谁?医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解ICML 2024|复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了2024第一个惊天大瓜:顶流女明星的亲弟弟爆改萌妹,世界终究成了这个癫样…Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展顶刊MIA 2023!PUNet:参数高效医学图像分割的提示微调
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。