Bendi新闻
>
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型

几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型

5月前



  新智元报道  

编辑:LRS
【新智元导读】最近来自浙江大学ReLER实验室的研究人员提出SIFU模型,一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人体侧视图作为先验条件,并结合扩散模型进行纹理增强,在几何与纹理重建测试中均达到SOTA,并且在真实世界中具有多种应用场景。


在AR、VR、3D打印、场景搭建以及电影制作等多个领域中,高质量的穿着衣服的人体3D模型非常重要。

 

传统的方法创建这些模型不仅需要大量时间,还需要能够捕捉多视角照片的专业设备,此外还依赖于技术熟练的专业人员。

 

SIFU重建3D人体模型用于场景搭建

 

与此相反,在日常生活中,我们最常见的是通过手机相机拍摄的或在各种网页上找到的人像照片。

 

因此,一种能从单张图像准确重建3D人体模型的方法可以显著降低成本,并简化独立创作的过程。

 

以往方法(左)与本文方法技术路线比较(右)

 

以往的深度学习模型用于3D人体重建,往往需要经过三个步骤:从图像中提取2D特征,将2D特征转到3D空间,以及3D特征用于人体重建。

 

然而这些方法在2D特征转换到3D空间的阶段,往往忽略了人体先验的引入,导致特征的提取不够充分,最终重建结果上会出现各种缺陷。

 

SIFU与其他SOTA模型重建效果比较

 

此外,在对纹理预测的阶段,以往模型仅仅依靠训练集中学得的知识,缺少真实世界的先验知识,也往往导致不可见区域的纹理预测较差。

 

SIFU在纹理预测阶段引入先验知识,增强不可见区域(背部等)的纹理效果。

 

对此,来自浙江大学ReLER实验室的研究人员提出SIFU模型,依靠侧视图条件隐函数从单张图片重建3D人体模型。

 

论文地址:https://arxiv.org/abs/2312.06704

项目地址:https://github.com/River-Zhang/SIFU

 

该模型通过在2D特征转换到3D空间引入人体侧视图作为先验条件,增强几何重建效果。并在纹理优化阶段引入预训练的扩散模型,来解决不可见区域纹理较差的问题。

 

模型结构


模型pipeline如下:

 

 

该模型运行可分为两个阶段,第一阶段借助侧隐式函数重建人体的几何(mesh)与粗糙的纹理(coarse texture),第二阶段则借助预训练的扩散模型对纹理进行精细化。

 

在第一阶段中,作者设计了一种独特的Side-view Decoupling Transformer,通过global encoder提取2D特征后,在decoder中引入了人体先验模型SMPL-X的侧视图作为query,从而在图像2D特征中解耦出人体不同方向的3D特征(前后左右),最后用于重建。

 

该方法成功的在2D特征转换到3D空间时结合人体先验知识,从而使得模型有更好的重建效果。

 

在第二阶段,作者提出一种3D一致性纹理优化流程(3D Consistent Texture Refinement),首先将人体不可见的区域(侧面、背面)可微渲染成视角连续的图片集,再借助在海量数据中学习到先验知识的扩散模型,对粗糙纹理图片进行一致性编辑,得到更精细的结果。最后通过精细化前后的图片计算损失来优化3D模型的纹理贴图。

 

实验部分


更高的重建精度


在实验部分,作者使用全面多样化的测试集对他们的模型进行测试,包括CAPE-NFP、CAPE-FP和THuman2.0,并与以往发表在各大顶会的单张图片人体重建SOTA模型进行比较。经定量测试,SIFU模型在几何重建与纹理重建中均表现出了最好的效果。

 

定量评估几何重建精度

 

定量评估纹理重建效果

 

使用互联网中公开图片作为输入进行定性效果展示

 

更强的鲁棒性

 

以往的模型应用训练集以外的数据时,由于估计的人体先验模型SMPL/SMPL-X不够准确,往往导致重建结果与输入图片相差甚远,难以投入实际应用。

 

对此,作者专门对模型的鲁棒性进行了测试,通过在ground truth先验模型参数中加入扰动使其位姿发生偏移,模拟真实场景中SMPL-X估计不准确的情况,来评估模型重建的精度。结果表明SIFU模型在该情况下,依然具有最好的重建精度。

 

评估模型面对有误差的人体先验模型时的鲁棒性

 

使用真实世界中的图片,在先验人体模型估计不准确的情况下,SIFU依然有较好的重建效果

 

更广阔的应用场景

 

SIFU模型的高精度高质量重建效果,使得其具有丰富的应用场景,包括3D打印、场景搭建、纹理编辑等。

 

3D打印SIFU重建的人体模型

 

SIFU借助扩散模型进行纹理编辑

 

SIFU用于3D场景搭建

 

更多定性测试结果(测试输入图片均来自互联网)


借助公开动作序列数据,可对SIFU重建的模型进行驱动


总结

本文提出侧视图条件隐式函数和3D一致性纹理编辑方法,弥补了以往工作在2D特征转换到3D空间、纹理预测时对先验知识引入的不足,极大的提高了单张图片人体重建的精度和效果,使模型在真实世界应用中具有显著的优势,也为该领域未来的研究提供了新的思路。


参考资料:
https://arxiv.org/abs/2312.06704


微信扫码关注该文公众号作者

来源:新智元

相关新闻

3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTAStability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!图灵奖得主Bengio团队新作:注意力可视为RNN!新模型媲美Transformer今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型3B模型新SOTA!开源AI让日常调用不同大模型更简单今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法Mamba遇见扩散模型!DiM:无需微调,高分辨图像生成更高效!OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折看透物体的3D表示和生成模型:NUS团队提出X-Ray谷歌重磅提出Med-Gemini :医学大模型里程碑之作!医学航母正式起航!全面开放开源!港大发布OpenGraph:探索图基础大模型3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!复旦发布公开匿名评测平台:3D生成模型同台竞技,魁首究竟花落谁家!今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。